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本 书 重点 介绍 如 何 将 R 语言 和 深度 学 习 模 型 或 深度 神经 网 络 结合 起 来 , 解决 实 
际 的 应 用 需求 。 全 书 共 6 章 ， 分 别 介绍 了 深度 这 习 基 础 知识 、 训 练 预测 模型 、 如 何 
防止 过 拟 合 、 识 别 异常 数据 、 训 练 深度 预测 模型 以 及 调节 和 优化 模型 等 内 容 。 
































本 书 适合 了 解 机 器 学 习 概 念 和 RR 语言 并 想 要 使 用 RR 提供 的 包 来 探索 深度 
用 的 读者 学 习 参 考 。 
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Dr. Joshua F. Wiley 是 英 纳 什 大 学 的 讲师 ， 也 是 统计 咨询 公司 Elkhart 集团 有 限 公 
司 的 资深 合伙 人 。 他 从 位 于 洛杉矶 的 加 利 福 尼 亚 大 学 获得 了 博士 学 位 。 他 的 研究 集 
于 使 用 高 级 数量 方法 来 理解 社会 、 心 理 ， 以 及 与 心理 和 生理 健康 有 关 的 生理 过 程 
之 间 的 复杂 的 相互 影响 。 在 统计 和 社会 科学 方面 , Joshua 关注 生物 统计 并 且 对 可 重复 
性 研究 以 及 数据 和 统计 模型 的 图 形 显示 非常 有 兴趣 。 通 过 在 Elkhart 集团 有 限 公司 的 
顾问 工作 以 及 他 之 前 在 UCLA 统计 顾问 集团 的 工作 ，Joshua 已 经 帮助 过 各 种 各 样 的 
客户 ,从 试验 研究 者 到 生物 技术 公司 。 他 开发 或 者 共同 开发 了 许多 R 包 , 包括 varian, 
一 个 用 来 构建 贝 叶 斯 尺度 位 置 结构 方程 模型 的 包 ,， 以 及 MplusAutomation, 一 个 将 
R 链接 到 商业 软件 Mplus AT] R E. 
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Vincenzo Lomonaco, 1991 年 出 生 于 意大利 的 芭 基 瓦 尼 - 罗 通 多 。 他 在 巴西 利 卡 
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他 以 优异 的 成 绩 从 计算 机 科学 专业 毕业 。 由 于 受到 博洛尼亚 感 名 和 研究 活动 的 吸 
引 ， 他 决定 在 那里 开始 计算 机 硕士 的 学 习 。2015 年 ， 他 以 优异 成 绩 毕 业 ， 毕 业 论 文 
是 《用 于 计算 机 视觉 的 深度 学 习 : 卷 积 神经 网 络 和 分 层 时 间 记 忆 在 目标 识别 任务 中 
的 比较 》。 目 前 ， 他 是 博洛尼亚 大 学 的 博士 研究 生 ， 研 究 深度 学 习 和 生物 启发 模式 
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本 书 主要 介绍 如 何在 R 编程 语言 和 环境 当中 训练 并 使 用 深度 学 习 模型 或 深度 
神经 网 络 。 本 书 无 意 于 提供 有 关 深 度 神 经 网 络 的 深入 的 理论 覆盖 ， 但 它 将 给 你 足够 
的 理论 背景 ， 帮 助 你 理解 深度 神经 网 络 的 基础 、 应 用 以 及 结果 的 解释 。 本 书 还 将 提 
供 一 些 包 和 函数 , 用 来 训练 深度 神经 网 络 , 优化 它们 的 超 参数 来 提升 模型 的 准确 度 、 
生成 预测 或 者 建立 模型 的 其 他 应 用 。 为 了 着 手 处 理 现 实生 活 中 的 例子 和 应 用 ， 本 书 
将 提供 关于 深度 学 习 要 领 的 易于 阅读 的 全 面 介 绍 。 

































































































































































本 书 的 内 容 









































第 1 章 “ 深 度 学 习 入 门 ” 展示 如 何 创建 R 和 H20 包 并 安装 在 计算 机 或 服务 器 
上 ， 内 容 涉 及 所 有 和 深度 学 习 有 关 的 基本 概念 。 


第 2 章 “ 训 练 预测 模型 ” 涉及 如 何 训练 一 个 浅 层 无 监督 的 神经 网 络 预测 模型 。 














第 3 章 “ 防 止 过 拟 合 ”， 解 释 了 可 用 于 防止 模型 过 拟 合 数据 的 不 同方 法 ， 为 了 





提升 泛 化 能 力 ， 叫 作 无 监督 数据 上 的 正则 化 。 


























第 4 章 “ 识 别 异常 数据 ” 涉及 识别 异常 数据 ， 比 如 欺诈 活动 或 者 离 群 点 ， 和 
如 何 执行 无 监督 深度 学 习 。 








(人 一 


第 5 章 “ 训 练 深度 预测 模型 ”， 展 示 了 如 何 训练 深度 神经 网 络 来 解决 预测 或 分 
类 问题 ， 比 如 图 像 识 别 。 








第 6 章 “ 调 节 和 优化 模型 ” 解释 了 如 何 调整 模型 的 调节 参数 来 提升 并 优化 深 
度 学 习 模 型 的 准确 度 和 性 能 。 











附录 即 文献 包含 了 本 书 所 有 引用 的 参考 书目 。 








预备 知识 




















使 用 这 本 书 ， 你 不 需要 掌握 太 多 的 知识 。 你 所 需要 的 软件 的 主要 部 分 是 R， 它 
是 开源 的 ， 可 以 在 Windows. Mac OS 和 多 种 Linux 上 运行 。 你 还 需要 最 新 版 本 的 
Java。 当 你 安装 好 了 R 和 Java,， 你 还 需要 安装 一 些 R BL, 所 有 这 些 R 包 都 可 以 在 主 
流 的 操作 系统 上 工作 。 









































或 许 ， 更 具有 挑战 性 的 要 求 是 ， 对 于 真正 的 深度 学 习 应 用 ， 哪 怕 是 探索 非常 小 
的 例子 , 都 要 求 有 现代 的 硬件 。 在 本 书 中 , 笔者 主要 使 用 的 台式 机 , 配置 为 2.50 GHz 
的 Intel Xeon E5-2670 v2C10 个 物理 核 , 20 个 逻辑 核 ), 32GB 的 内 存 和 三 星 850 PRO 
512GB SSD。 你 不 一 定 需 要 一 个 相同 的 系统 ， 但 是 笔者 发 现在 16GB 内 存 、 双 核 这 
处 理 器 的 笔记 本 电脑 上 运行 某 些 例子 是 很 耗费 时 间 的 。 






















































































目标 读者 


本 书 适合 那些 有 人 退 求 的 数据 科学 家 ， 他 们 熟知 机 器 学 习 概念 和 R， 并 且 正 在 使 
































用 R 提供 的 包 来 探索 深度 学 习 范 式 。 你 最 好 对 R 语言 有 一 个 基本 的 理解 而 且 对 统 
计算 法 和 机 器 学 习 技术 运用 自如 ， 但 你 并 不 需要 精通 深度 学 习 的 概念 。 


























排版 约定 





在 本 书 中 ， 你 会 发 现 许多 文本 样式 ， 它 们 区 分 了 不 同类 型 的 信息 。 这 里 是 一 些 
有 关 这 些 样式 的 例子 ， 解 释 了 它们 的 含义 。 


























文本 中 的 代码 、 数 据 库 表 名 称 、 文 件 夹 名 称 、 文 件 名 称 、 文 件 扩展 名 、 路 径 名 
称 、 虚 拟 URLs、 用 户 输 入 以 及 推 特 用 户 定位 显示 如 下 所 示 。 
































“当然 ， 我 们 无 法 真正 使 用 library () 冰 数 ， 除 非 我 们 安装 了 这 些 包 。” 





代码 块 的 设置 如 下 所 示 。 


## uncomment to install the checkpoint package 
## install.packages ("checkpoint") 
library (checkpoint) 


checkpoint("2016-02-20", R.version = "3.2.3") 


当 我 们 希望 把 你 的 注意 力 吸 引 到 代码 块 的 一 个 特别 部 分 的 时 候 ， 我 们 会 将 有 关 
的 行 或 项 目 设置 成 粗 体 ， 如 下 所 示 。 


























performance.outsample[,-4] 


Size Maxit Shuffle Accuracy AccuracyLower AccuracyUpper 








1 40 60 FALSE 0.93 0.92 0.94 
2 20 100 FALSE 0.92 0.91 0.93 
3 20 100 TRUE 0.92 0.91 0.93 
4 50 100 FALSE 0.91 0.90 0.92 
5 50 100 FALSE 0.92 0.91 0:293 











命令 行 的 输入 和 输出 形式 如 下 所 示 。 


h20iris <- as.h2o( 


droplevels(iris[1:100, ])) 


新 术语 或 者 重要 的 词汇 用 粗 体 显示 。 

















Rae ] 


M 
[8 提示 或 技巧 会 类 似 这 样 出 现 。 ] 
读者 反馈 














我 们 始终 欢迎 来 日 读者 的 反馈 ,请 让 我 们 知道 你 对 这 本 书 的 看 法 一 一 喜欢 哪些 
内 容 ， 不 喜欢 哪些 内 容 。 读 者 的 反馈 对 我 们 来 说 十 分 重要 ， 这 样 我 们 才能 出 版 读者 
最 需要 的 书 。 












































贵 请 通过 电子 邮件 发 送 到 feedback@packtpub.com， 在 邮件 中 请 注 明 
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如 果 你 是 某 方面 的 专家 ， 有 兴趣 写 书 ， 或 者 为 某 一 本 书 投稿 ， 请 阅读 我 们 的 作 
者 指南 ， 地 址 是 www.packtpub.com/authors。 


























客户 支持 
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现在 你 已 经 是 一 本 Packt 图 书 的 光环 的 拥有 者 ， 为 了 让 你 的 付出 得 到 最 大 的 
报 ， 我 们 还 将 为 你 提供 其 他 方面 的 服务 。 























下 载 示例 代码 


你 可 以 登录 http://www.packtpub.com 的 账户 ， 下 载 本 书 的 示例 代码 文件 。 如 果 
你 是 从 其 他 地 方 购买 的 本 书 , 可 以 访问 http://www.packtpub.com/support, 注册 之 后 ， 
我 们 会 为 你 发 送 一 封 附 有 文件 的 电子 邮件 。 









































你 可 以 根据 下 面 的 步骤 下 载 代 码 文件 : 





























(1) 使 用 你 的 电子 邮件 地 址 和 密码 在 我 们 的 网 站 登录 或 者 注册 ; 




















(2) FE BUB EDI TET SUPPORT 选项 卡 上 ; 
(3) 单 击 Code Downloads & Errata; 


(4) 在 搜索 框 中 输入 该 书 的 名 称 ; 








(5) 选择 你 要 找 的 书 来 下 载 代码 文件 ; 
(6) 在 下 拉 菜 单 中 选择 你 从 何 处 购买 了 这 本 书 ; 


(7) 单 击 Code Download (ARE FE). 


























如 有 果 下 载 了 文件 ， 请 你 确保 使 用 下 列 软 件 的 最 新 版 本 来 解压 缩 或 者 提取 文件 来 。 











e Windows: WinRAR / 7-Zip 
e Mac: Zipeg/ iZip / UnRarX 


e Linux: 7-Zip / PeaZip 


下 载 本 书 的 彩色 图 像 











我 们 还 为 你 提供 了 本 书 中 所 用 的 



































屏幕 截图 /示意 图 彩色 图 像 的 PDF 文件 。 彩 

















色 图 像 能 更 好 地 帮助 你 理解 输出 中 的 变化 。 你 可 以 从 https://www.packtpub.com/ 


sites/default/files/downloads/RDeepLearningEssentials Colorlmages.pdf. F 2X ix 些 


文件 。 


尽管 我 们 会 尽 全 力 确保 ; 























submit-errata 来 提交 , 选择 你 的 














中 内 容 的 准确 性 ， 但 是 错误 仍然 在 所 难免 。 如 果 你 在 
我 们 的 某 本 书 中 发 现 了 错误 一 一 文字 错误 或 者 代码 错误 ， 而 且 愿 意 为 我 们 报告 这 些 
错误 ， 我 们 将 感激 不 尽 。 这 样 不 仅 可 以 消除 其 他 读者 的 挫败 感 ， 而 且 能 帮助 我 们 改 
进 这 本 书 的 后 续 版 本 。 如 果 你 发 现 了 任何 的 错误 , 可 以 访问 http://www.packtpub.com/ 

































































B, 7 Errata Submission Form (勘误 表 提 交 表 单 )， 





输入 勘误 详情 。 勘 误 通 过 验证 之 后 ， 你 提交 的 内 容 会 被 接受 而 且 勘 误会 上 传 到 我 们 








的 网 站 ， 或 者 添加 到 这 本 


























勘误 部 分 现 有 的 勘误 列表 中 。 














如 果 你 想 查 看 之 前 提交 的 勘误 ， 请 访问 https:/www.packtpub.com/books/ 








content/support， 在 搜索 栏 


盗版 举报 














FP 输 入 书 名 ， 所 查询 的 信息 会 出 现在 勘误 部 分 。 








对 所 有 的 媒体 来 次， 在 互联 网 上 旨 傻 版 权 材 料 都 是 一 个 国手 的 问题 。Packt 很 


HL ART BATT ASSAY 























F 可 。 如 果 你 如 





E 互 联网 上 发 现 我 们 产品 的 任何 形式 的 非法 复 

















制品 ， 请 立即 告知 我 们 的 网 址 和 网 站 名 称 ， 这 样 我 们 可 以 采取 补救 措施 。 





值 内 容 的 能 力 ， 我 们 对 
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如 果 你 发 现 可 疑 的 盗版 材料 ， 请 通过 copyright@packtpub.com 联系 我 们 。 



































疑 的 次 
的 举报 有 助 于 保护 作者 的 权益 以 及 我 们 为 你 提供 有 1 











此 深 表 感 jo 
j 有 疑问 , 可 以 通过 questions@packtpub.com 联系 我 们 ， 
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如 果 你 对 本 书 的 任何 方 
我 们 会 尽力 解决 问题 。 
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深度 学 习 人 入门 











本 章 讨论 深度 学 习 ， 这 是 一 种 强大 的 多 层 巢 构 ， 可 以 用 于 模式 识别 、 信 和 号 检测 
以 及 分 类 或 预测 等 多 个 领域 。 深 度 学 习 并 不 新 鲜 , 但 在 过 去 十 年 它 获得 了 极 高 的 关 
注 ， 这 部 分 归功 于 计算 能 力 的 不 断 发 展 和 训练 模型 不 断 涌现 出 更 有 效 的 新 方法 ， 也 
源 于 可 使 用 的 数据 量 不 断 增加 。 在 本 半 中 ， 我 们 将 学 习 深度 学 习 是 什么 ， 训 练 这 种 
模型 有 哪些 R 包 ， 如 何 建 立 分 析 系 统 以 及 如 何 连接 R 和 H2O。 在 随后 的 章节 ， 我 
们 会 将 H20 用 于 许多 案例 ,这些 案例 探讨 如 何 真正 训练 和 使 用 一 个 深度 学 习 模 型 。 





























































































































本 章 包 括 以 下 内 容 。 





。 什么 是 深度 学 习 ? 














。 使 用 R 包 来 训练 深度 学 习 模型 ， 如 深度 信念 网 络 或 深度 神经 网 络 。 











e 连接 RR 和 H20， 深 上 度 学 习 使 用 H20. 



































为 了 理解 深度 学 习 是 什么 ， 最 简单 的 方式 也 许 是 首先 理解 常规 机 器 学 习 是 什 
么 。 一 般 来 说 ， 机 器 学 习 主 要 用 于 开发 和 使 用 那些 从 原始 数据 中 学 习 、 总 结 出 来 的 
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用 于 进行 预测 的 算法 。 预 测 是 个 非常 笼统 的 术语 。 例 如 ， 机 器 学 习 中 的 预测 可 以 包 
括 预测 茶 位 消费 者 将 会 在 一 家 给 定 的 公司 花费 是 多 少 , 或 者 预测 一 笔 特殊 的 信用 卡 
消费 中 是 否 存在 欺诈 。 预 测 也 包括 更 一 般 的 模式 识别 ， 如 给 定 的 图 片 显示 了 什么 字 
母 ， 或 者 这 张 照 片 中 是 否 有 马 、 狗 、 人 、 脸 、 建 筑 等 。 深 度 学 习 是 机 器 学 习 的 一 个 
分 文 ， 其 中 的 深度 〈 多 层 ) 架构 用 于 映射 输入 或 观测 特征 与 输出 之 间 的 联系 。 这 种 
深度 架构 使 得 深度 学 习 特 别 适 合 处 理 含 有 大 量变 量 的 问题 ， 同 时 可 以 把 深度 学 习 生 
成 的 特征 当 作 学 习 算 法 整体 的 一 部 分 ， 而 不 是 把 特征 生成 当 作 一 个 单独 步骤 。 现 已 
证 明 ， 深 度 学 习 在 图 像 识 别 ( 包 括 笔迹 以 及 图 片 或 者 物体 的 识别 ) 和 自然 语言 处 理 
《如 语音 识别 ) 领域 非常 有 效 。 


























































































































































































































现在 已 有 许多 类 型 的 机 器 学 习 算 法 。 在 本 书 中 ,我 们 主要 讨论 神经 网 络 ， 因 
为 它 在 深度 学 习 中 非常 流行 。 但 是 ,这 种 侧重 并 不 意味 着 这 就 是 用 于 机 器 学 习 其 
至 深度 学 习 的 唯一 技术 , 也 不 是 说 其 他 的 技术 没有 价值 或 者 不 适合 , 技术 的 选择 
取决 于 具体 的 任务 。 我 们 将 在 1.2 节 从 概念 上 更 深入 地 讨论 神经 网 络 和 深度 神经 
网 络 是 什么 。 



























































1.2 神经 网 络 的 概念 综述 






































神经 网 络 正 如 其 名 所 示 ， 命 名 的 灵感 源 于 身体 中 的 神经 过 程 和 神经 元 。 神 经 网 
络 包括 一 系列 的 神经 元 ， 或 者 叫 作 节点 ， 它 们 彼此 连结 并 处 理 输入 。 神 经 元 之 间 的 
连结 经 过 加 权 处 理 ， 权 重 取决 于 从 数据 中 学 习 、 总 结 出 的 使 用 函数 。 一 组 神经 元 的 
激活 和 权重 (从 数据 中 自 适应 地 学 习 〉 可 以 提供 给 其 他 的 神经 元 ， 其 中 一 些 最 终 凶 
经 元 的 激活 就 是 预测 。 


为 了 将 这 个 过 程 刻画 得 更 具体 ， 我 们 借助 于 一 个 来 自 人 类 视觉 感知 的 例子 来 加 
强 理 解 。 祖 母 细胞 这 个 术语 用 于 指 这 样 一 个 概念 ， 在 大 脑 的 某 个 地 方 有 一 个 细胞 或 
者 神经 元 ， 它 专门 上 只 对 某 个 复杂 的 特定 对 象 有 反应 ， 如 我 们 的 祖母 。 这 种 特性 需要 
数 千 个 细胞 来 代表 我 们 遇 到 的 每 个 独特 实体 或 对 象 。 相 反 的 观点 是 ， 人 们 通过 汇集 
更 多 的 基本 片断 来 建立 复杂 的 表达 方式 从 而 形成 了 视觉 感知 。 图 1-1 是 一 张 正 方形 
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的 图 片 。 








图 1-1 























我 们 的 视觉 系统 中 有 神经 元 而 没有 细胞 ， 只 要 看 到 完整 的 正方 形 ， 神 经 元 就 会 
激活 。 我 们 的 细胞 可 以 识别 图 1-2 所 示 的 水 平 线 和 垂直 线 。 










































































图 1-2 
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在 这 种 假设 情况 中 ， 有 两 个 神经 元 ， 其 中 一 个 一 旦 感知 到 水 平 线 就 会 被 激活 ， 
男 一 个 一 旦 感知 到 垂直 线 就 会 被 激活 。 最 后 ， 一 旦 两 个 低 阶 的 神经 元 同时 激活 ， 一 
个 更 高 级 的 过 程 就 会 识别 出 它 是 一 个 正方 形 。 









































神经 网 络 共享 了 一 些 相 同 的 概念 ， 输 入 经 过 第 一 层 神 经 元 的 处 理 成 为 可 以 到 达 
其 他 层 的 神经 元 。 神 经 网 络 有 时 可 以 表示 为 图 模型 。 如 图 1-3 所 示 ， 输 入 是 表示 为 
方形 的 数据 。 它 们 可 能 是 图 像 中 的 像素 ,或 者 是 声音 的 不 同方 面 ， 或 者 是 其 他 的 东 
西 。 接 下 来 的 一 层 隐 藏 神经 元 由 诸如 水 平 线 、 垂 直线 或 者 曲线 这 些 基 本 特征 的 神经 
元 组 成 。 最后， 输出 是 这 样 一 个 神经 元 ， 它 通过 同时 激活 两 个 隐藏 的 神经 元 而 激活 
自身 。 在 本 书 中 ， 已 观测 的 数据 或 特征 为 方形 ， 而 未 观测 的 或 隐藏 层 为 圆 形 。 














































































































输入 隐藏 输出 


圆 形 

















图 1-3 




















神经 网 络 用 来 指示 一 类 广泛 的 模型 和 算法 。 类 似 于 其 他 统计 技术 的 一 个 基础 扩 
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展 ， 神 经 网 络 基 于 一 些 观测 数据 的 集合 生成 隐藏 的 神经 元 。 但 是 ,创建 隐藏 神经 元 
的 权重 是 从 数据 中 学 习 得 到 的 ， 而 非 通 过 扩展 形式 的 选择 而 得 到 。 神 经 网 络 可 以 包 
含 多 种 激活 函数 ， 它 们 是 加 权 原 始 数 据 输 入 的 变换 ， 用 以 创建 隐藏 神经 元 。 经 常 选 
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te" 
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以 及 双 曲 正切 函数 fx)=tanh(x)。 最 后 ， 














择 的 激活 函数 是 sigmoid 函数 : o(x) = 

































































=> 
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多 ， 但 高 斯 形式 很 常用 : rozea -Et | 

















在 一 个 类 似 于 如 图 1-3 所 示 的 浅 层 神经 网 络 中 ， 只 有 一 个 隐藏 层 ， 从 隐藏 单元 
到 输出 ， 在 本 质 上 是 一 个 标准 的 回归 或 分 类 问题 。 隐 藏 单元 可 以 表示 为 h”， 输 出 可 
以 表示 为 Y。 不 同 的 输出 可 以 通过 角 标 i=1,...k 来 表示 ， 代 表 不 同 的 可 能 分 类 ， 例 
如 《在 我 们 的 例子 里 ) 圆 形 或 者 方形 。 权 重 是 从 每 个 隐藏 单元 到 每 个 输出 的 路 径 ， 
对 第 i 个 的 输出 通过 (w_i) 表 示 。 如 创建 隐藏 层 的 权重 ， 这 些 权重 也 是 从 数据 中 学 习 

























































































AEN. IRE ARR, some RH MY = y ERT 
€" 

估计 为 正 《 使 用 指数 函数 )， JEELEERTAS ALAR RU 1o RAV i AUTRE 
(identity) 函数 ， 它 返回 答 入 值 。 关 于 为 什么 每 个 隐藏 单元 和 输出 之 间 存 在 路 径 ， 
而 每 个 输入 和 隐藏 单元 之 问 也 存在 路 径 ， 这 很 可 能 引起 混乱 。 这 通常 用 来 表示 多 许 
任何 先 验 关系 存在 。 权 重 必须 从 数据 中 学 习 得 到 ， 权 重 为 零 或 接近 零 基本 上 等 同 于 
放弃 不 必要 的 关系 。 







































































这 里 我 们 只 介绍 了 神经 网 络 概念 与 实践 方面 的 初级 内 容 。 如 果 想 要 更 深入 地 了 
解 神经 网 络 ， 我 们 可 以 参见 Hastie, T., Tibshirani, R., and Friedman, J. (2009) 的 第 11 
章 (在 http://statweb. stanford.edu/-tibs/ElemStatLearn/ 有 它 的 
免费 版 本 )、Murphy, K. P. (2012) 的 第 6 章 和 Bishop, C. M. (20060 的 第 5 章 。 
下 面 ， 我 们 简要 介绍 深度 神经 网 络 。 
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1.3 深度 神经 网 络 











可 能 最 简单 的 深度 神经 网 络 (deep neural network, DNN) 的 定义 是 ， 这 是 一 种 

















有 多 个 隐藏 层 的 外 











经 网 络 ， 虽然 这 个 定义 的 信息 量 并 不 是 最 大 的 。 这 种 深度 架构 是 








神经 网 络 的 一 种 相对 简单 的 概念 扩展 , 它 有 效 地 推进 了 模型 的 能 力 和 训练 模型 的 新 


挑战 。 





多 个 隐藏 层 的 使 有 





























络 时 ,我 们 考虑 输出 的 是 圆 形 还 是 方形 。 在 深度 神经 网 络 中 ， 








组 合 形成 其 他 更 高 级 
面 是 它 的 宽 罕 如 何 





层 有 较 少 的 神经 元 ) 3 


























即 给 定 的 一 层 中 有 多 少 个 神经 元 。 第 二 
何 ， 或 者 说 神经 元 有 多 少 层 。 对 于 确实 具有 这 和 有 
网 络 ， 深 度 神 经 网 络 可 以 使 

















允许 模型 实现 由 简 到 繁 的 更 复杂 的 建 并 机 制 。 在 讨论 神经 网 











多 个 圆 形 或 方形 可 以 


的 形状 。 我 们 可 以 考虑 模型 架构 的 复杂 性 的 两 个 方面 。 一 个 方 


















































将 基本 部 分 整合 出 更 高 级 的 形 ; 
本 识别 训练 模型 原始 数据 可 能 是 








大。 再 次 考虑 图 


















































图 像 中 的 像素 。 我 们 可 

















来 捕捉 字母 表 中 不 同 的 字母 ， 





i 另 一 层 可 以 识别 单词 的 字母 集合 。 这 样 做 优点 是 第 











个 方面 是 它 的 深度 如 








深度 架构 的 数据 来 次 ， 相 比 于 神经 
日 更 少 的 参数 获得 更 精确 的 拟 合 结果 ， 因 为 层 数 〈 每 一 
斌 多 ， 意 味 大 表现 越 有 效 而 且 越 精确 。 比 如 ， 较 浅 的 神经 网 络 
与 深度 神经 网 络 相 比 ， 必 须 表 示 出 每 个 独特 的 对 象 才 能 达到 相等 的 精度 ， 但 它 无 法 
象 中 的 模式 识别 ， 如 果 我 们 想 使 用 文 















































以 训练 第 一 层 神经 元 














二 层 无 需 直 接 从 充满 噪音 的 复杂 像素 中 学 习 。 相 反 ， 一 个 较 浅 的 架构 则 可 能 需要 多 


得 多 的 参数 ， 

















因为 每 个 隐藏 的 神经 元 都 需要 具备 从 图 像 中 的 像 





能 力 ， 而 许多 单词 都 可 能 重 登 ， 因 此 会 造成 模型 中 的 元 余 。 


训练 深度 











BUR AS, MH 


容易 陷入 局 部 最 优化 ， 






































因此 最 优化 问题 成 为 一 种 











素 映 射 到 复杂 单词 的 


经 网 络 的 挑战 之 一 是 如 何 通过 有 效 学 习 得 出 权重 。 这 些 模型 通常 比 








巨大 挑战 。2006 年 出 


展 ， 它 表明 深度 信念 网 络 (Deep Belief Networks ，DBNs) 可 以 一 
次 训练 一 层 [参见 Hinton, G. E., Osindero, S., and Teh, Y. W. (2006) ]. DBN 是 深度 
神经 网 络 的 一 个 类 型 , 它 含 有 多 个 隐藏 层 , 层 与 层 之 间 ( 


























是 说 , 第 一 层 的 一 个 神经 元 可 以 和 第 二 层 的 一 个 神经 元 连结 ， 








而 不 是 在 内 部 ) 有 连结 (就 

















但 不 能 和 第 一 层 的 其 
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他 神经 元 连结 )。 这 个 定义 在 本 质 上 与 受 限 玻 尔 效 曼 机 (Restricted Boltzmann 
Machine, RBM) 相同 ， 除 了 RBM 通常 具有 一 个 输入 层 和 一 个 隐藏 屋 ， 受 限 玻 尔 
效 曼 机 如 图 1-4 所 示 。 




















输入 隐藏 














图 1-4 



































在 一 层 之 内 没有 连接 的 限制 很 有 价值 ， 因 为 它 允 许 使 用 更 快 的 训练 算法 ， 比 如 
对 比 散 度 (contrastive divergence) 算 法 ,多 个 RBM 营 加 在 一 起 , 就 能 形成 一 个 DBN。 
本 质 上 来 说 ，DBN 可 以 被 训练 为 一 系列 RBMs。 第 一 个 RBM 层 训 练 出 来 向 隐藏 
经 元 转换 原始 数据 ， 再 在 第 二 个 RBM 层 中 作为 新 的 输入 进行 训练 ， 这 个 过 程 一 直 
重复 直到 所 有 层 都 经 过 训练 。 









































这 种 实现 的 好 处 是 DBNs 可 以 一 次 只 训练 一 层 ， 还 不 仅 限 于 DBNs。DBNs 有 
时 也 用 于 深度 学 习 网 络 的 预 处 理 阶 段 。 它 允许 使 用 相对 快速 的 逐 层 贪 禁 训练 提供 
展 好 的 初始 估计 ， 再 在 深度 神经 网 络 中 使 用 其 他 较 慢 的 训练 进行 改进 ， 比 如 反问 
传播 方法 。 
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到 目前 为 止 , 我 们 主要 关注 前 馈 神经 网 络 ， 其 中 一 层 神经 元 的 结果 问 前 传递 到 
下 一 层 。 在 结束 本 节 之 前 ， 我 们 需要 注意 两 种 日 益 流行 的 深度 神经 网 络 类 型 。 第 一 
种 是 循环 神经 网 络 (Recurrent Neural Network, RNN), 它 的 神经 元 彼此 间 发 送 反 馈 
信号 。 这 种 反馈 循环 使 得 RNN 在 序列 上 表现 良好 。 一 个 最 近 的 RNN 应 用 例子 是 自 
动 生 成 钓鱼 点 击 ， 例 如 “发 廊 故 意 隐藏 的 大 秘密 ”或 者 “造访 拉 斯 维 加 斯 的 十 大 理 
FH: 第 六 个 一 定 震撼 你 !”。RNN 十 分 擅长 处 理工 作 ， 因 为 RNN 可 以 从 一 些 单词 的 
巨大 初始 池 中 取样 (甚至 只 是 趋势 性 的 搜索 术语 或 者 名 称 )， 再 预测 生成 下 一 个 单 
词 的 内 容 。 这 个 过 程 会 重复 若干 次 ， 直 至 生成 一 个 简短 叙述 一 一 钓鱼 点 击 。 这 个 例 
子 来 自 Lars Eidnes 的 一 篇 博客 (http://larseidnes.com/2015/10/13/ 

























































































































































































auto-generating-clickbait-with-recurrentneural-networks/). 5$ 
二 种 类 型 是 卷 积 神经 网 络 CConvolutional Neural Network, CNN). CNN 最 常用 于 
图 像 识别 。 它 的 工作 原理 是 每 个 神经 元 都 对 图 像 的 重 登 部 分 作出 响应 。 这 种 类 型 
的 优点 是 它们 要 求 的 预 处 理 相 对 最 小 ， 但 权重 共享 “比如 说 ， 穿 过 图 像 的 重 登 区 
域 ) 仍然 不 需要 太 多 的 参数 。 图 像 常常 并 不 一 致 ， 因 此 CNN 对 图 像 特别 有 价值 。 
例如 ，10 个 人 拍摄 同一 张 桌子 的 照片 ,有些 人 比较 近 ， 有 些 人 比较 远 ， 有 些 人 刚 
好 在 桌子 劳 边 ， 位 置 差异 导致 了 本 质 相同 的 图 像 在 高 度 、 宽 度 以 及 围绕 焦点 对 象 
拍摄 的 照片 数量 的 差异 。 





















































































































































对 神经 网 络 来 说 ， 上 述 叙 述 只 是 规定 了 什么 是 神经 网 络 以 及 一 些 相 关 应 用 案 
例 的 最 简短 的 概述 。 概 述 我 们 可 以 参见 Schmidhuber, J. (2015) 以 及 Murphy, K. P. 
(2012) 的 第 28 章 。 

















1.4 ”用 于 深度 学 习 的 民 包 














尽管 R 有 大 量 用 于 机 器 学 习 的 包 ， 但 用 于 神经 网 络 和 深度 学 习 的 包 相 对 较 少 。 
在 本 节 中 ， 我 们 将 讨论 如 何 安装 和 设置 所 有 需要 的 了 包 ， 以 便 使 用 神经 网 络 和 深度 


35]. 


















































就 使 用 R 做 数据 分 析 来 说 ， 一 个 好 的 综合 开发 环境 Cintegrated development 
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environment, IDE) 很 有 帮助 。 我 们 选择 使 用 Emacs， 它 与 Emacs Speaks Statistics 
(ESSO 相 结合 是 一 种 强大 的 文本 编辑 器 ， 有 助 于 Emacs 与 R 结合 在 一 起 很 好 地 工 
作 。 方便 的 启动 和 运行 方式 是 使 用 一 种 特定 的 Emacs 修正 发 行 版 本 ， 这 个 版 本 专门 
用 来 结合 R 一 起 工作 和 用 于 统计 ， 而且 效果 很 好 。 EHH Vincent Goulet 创建 并 维护 ， 
可 以 在 http://vgoulet.act. ulaval.ca/en/emacs/ 中 免费 获取 。 另 一 种 
MITHI R AY IDE 是 Rstudio (https://www. rstudio.com/). Emacs 和 Rstudio 
的 一 个 共同 优点 是 它们 在 所 有 主要 的 平台 上 (Windows、Mac 和 Linux) 都 可 用 ， 
因此 即使 我 们 更 换 电脑 ，IDE 经 验 仍然 可 以 使 用 。 



































































































































1.5 建立 可 重复 的 结果 








数据 科学 软件 正 处 于 高 速 发 展 的 阶段 。 尽 管 这 对 技术 进步 来 说 相当 美妙 ， 但 对 
需要 重复 别人 结果 的 人 来 说 则 构成 了 挑战 。 即 使 是 我 们 自己 的 代码 ， 几 个 月 后 再 使 
用 时 也 有 可 能 无 法 工作 。 人 解决 这 个 问题 有 一 种 方法 ， 就 是 记录 使 用 的 软件 版 本 并 确 
保 其 快照 可 用 。 本 书 会 使 用 Revolution Analytics 公司 提供 的 及 包 checkpoint, "t^c 
连接 上 它们 公司 的 服务 器 再 运行 , 服务 器 提供 了 R 综合 档案 网 络 (Comprehensive R 
Archive Network, CRAN) 的 每 日 快照 (checkpoints )。 想 要 了 解 这 个 过 程 的 更 
多 内 容 ， 我 们 可 以 在 https://cran.r-project.org/web/packages/ 
checkpoint/vignettes/checkpoint.html 阅读 此 包 的 在 线 小 文章 














Uml 




























































































(vignette ). 


本 书 使 用 了 绰号 为 “木质 圣诞 树 ”(Wooden Christmas-Tree) 的 R3.2.3 版 本 ， 
操作 系统 为 Windows 10 Professional x64。 这 个 版 本 在 本 书写 作 期 间 是 最 新 的 。 随 着 
更 新 版 本 的 发 布 ，CRAN 会 以 二 元 形式 (将 来 在 nttps://cran.r- 
project.org/bin/ windows/ base/old/ ) 和 源 打 包 文 件 的 形式 
(https://cran.r-project.org/ src/base/R-3/) 保留 旧版 本 的 备份 ， 用 
于 在 任何 操作 系统 上 编译 源 文件 。 









































H20 是 使 用 深度 学 习 的 主要 R 包 之 一 ， 我 们 需要 安装 Java。 本 书 使 用 了 64 位 
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的 Java SE Development Kit 8 update 66。 我 们 可 以 从 http://www.oracle.com/ 





technetwork/java/javase/ 下 载 适 合 目 己 的 操作 系统 的 Java。 

















完成 这 些 步骤 后 ， 我 们 就 准备 开始 。 为 了 使 用 checkpoint 包 ， 我 们 需要 把 月 

















HT 











同一 个 项 目的 RR 脚本 放 入 同一 个 文件 来 。 安 装 使 用 checkpoint 包 的 过 程 有 些 迁 回 。 









































的 R 脚本 来 看 看 载 入 了 什么 R 包 ( 因 此 它 需 要 安装 )。 当 然 ,， 除非 这 些 包 已 经 安 
我 们 实际 不 能 使 用 library) KZ. 


























我 们 在 项 目 目录 下 创建 一 个 R 脚本 checkpoint.R， 使 用 代码 如 下 所 示 。 





## uncomment to install the checkpoint package 
## install.packages ("checkpoint") 
library (checkpoint) 


checkpoint("2016-02-20", R.version = "3.2.3") 





通过 检查 对 library0 和 requireO 函 数 的 调用 , checkpoint 包 的 工作 是 扫描 项 目 目录 中 


装 ， 


一 旦 创建 了 R 脚本 ， 就 可 以 取消 注释 并 且 运 行 代 码 来 安装 checkpoint 包 。 这 样 

















我 们 只 需要 做 一 次 ， 因 此 完成 时 最 好 再 给 代码 添上 注释 ， 这 样 它 不 会 在 我 们 每 次 运 
行文 件 时 都 重新 安装 。 而 我 们 需要 对 深度 学 习 项 目 创建 R 环境 , 这 是 我 们 每 次 都 会 
































运行 的 文件 。 本 书 的 检查 点 是 2016 年 2 月 20 日 ， 我 们 使 用 的 R 版 本 是 3.2.3。 





接 








下 来 ， 我 们 加 入 library0 调 用 一 些 需 要 的 包 ， 这 些 可 以 通过 在 checkpoint.R 脚本 中 

















加 入 如 下 所 示 代 码 得 到 (但 要 注意 ， 这 些 还 没有 运行 !)。 











## Chapter 1 ## 


## Tools 

library (RCurl) 
library(jsonlite) 
library (caret) 
library (e1071) 


## basic stats packages 
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library (statmod) 
library (MASS) 


下 载 示 例 代码 

我 们 可 以 直接 从 http://www.packtpub.com FR 
所 有 已 购买 的 Packt 图 书 的 示例 代码 文件 . 如 果 是 从 
其 他 地 方 购买 了 本 书 ， AUT AG» N 
http://www.packtpub.com/support 并 注册 , 会 通过 电子 
邮件 把 文件 发 送 给 我 们 。 

下 载 代码 文件 的 步骤 如 下 : 

(1) 登录 网 站 ; 

(2) 把 鼠标 按键 悬 停 在 顶部 的 SUPPORT 标 
a 
(3) #4 “Code Downloads & Errata”; 
(4) 在 搜索 框 输入 书 名 ; 
(5) 选择 你 想 要 下 载 代码 文件 的 图 书 ; 
(6) 在 下 拉 菜 单 选择 我 们 从 何 处 购买 了 本 书 ; 
(7) 单 击 “Code Download”. 
文件 下 载 后 ， 确 保 我 们 使 用 以 下 软件 的 最 新 版 
本 解压 或 提取 文件 夹 : 

e 对 于 Windows 是 WinRAR / 7-Zip; 

e 对 于 Mac X Zipeg / iZip / UnRarX; 

e 对 于 Linux € 7-Zip / PeaZip. 


A 





— EATS. REL, TETIDICEBIA E ATA. BR RRIETA ATIR 
人 码 来 载 入 checkpoint 包 并 调用 checkpoint0， 结 果 如 图 1-5 Aras. 
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File Edit Optons Buffers Tools iESS Complete In/Out Signals Help 


R version 3.2.3 (2015-12-10) -- "Wooden Christmas-Tree" 
Copyright (C) 2015 The R Foundation for Statistical Computing 
Platform: x86 64-w64-mingw32/x64 (64-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type 'license()' or 'licence()' for distribution details. 


R is a collaborative project with many contributors. 
Type 'contributors()' for more information and 
'citation()' on how to cite R or R packages in publications. 


Type 'demo()' for some demos, 'help()' for on-line help, or 
'help.start()' for an HTML browser interface to help. 
Type 'q()' to quit R. 


» » options(chmhelp-FALSE, help type-"text") 
> options(STERM-'iESS', str.dendrogram.last-"'", editor-'emacsclient.exe', show. à 
$ error.locations-TRUE) 
» library(checkpoint) 


checkpoint: Part of the Reproducible R Toolkit from Revolution Analytics 
http://projects.revolutionanalytics.com/rrt/ 

> checkpoint("2016-@2-20", R.version = '3.2.3") 

Can I create directory ~/.checkpoint for internal checkpoint use?(y/n) 
y 

Scanning for packages used in this project 

- Lom ed 7 packages 

Installing packages used in this project 

- Installing 'caret' 

also installing the dependencies ‘colorspace’, 'minqa', 'nloptr', 'acpptigen', ' 
SRColorBrewer', 'dichromat', 'munsell', 'labeling', 'Matrix', 'lme4', 'SparseM', 
$'MatrixModels', 'stringi', 'magrittr', 'digest', 'gtable', 'MASS', 'scales', ‘mg 
Scv', 'nnet', 'pbkrtest', 'quantreg', 'codetools', 'iterators', 'Rcpo', 'stringr' 
S, ‘lattice’, 'ggplot2', 'car', 'foreach', 'plyr', 'nlme', 'reshape2' 





=| 100% 


package ‘colorspace’ successfully unpacked and MDS sums checked 
[ output cut ] 

package ‘caret’ successfully unpacked and MD5 sums checked 

- Installing 'e1071' 

also installing the dependency 'class' 


package 'class' successfully unpacked and MD5 sums checked 
package 'e1071' successfully unpacked and MDS sums checked 

- Installing 'jsonlite" 

package 'jsonlite' successfully unpacked and MD5 sums checked 
- Previously installed 'MASS' 

- Installing 'RCurl' 

also installing the dependency 'bitops' 


package 'bitops' successfully unpacked and MD5 sums checked 
package 'RCurl' successfully unpacked and MD5 sums checked 
- Installing 'statmod' 


package 'statmod' successfully unpacked and MD5 sums checked 
checkpoint process complete 


EM | 


aXee- c e All (54,2 iESS [R db - 


图 1-5 


checkpoint 包 需 要 创建 一 个 路 径 来 存储 使 用 包 的 具体 版 本 ， 接 着 找到 所 有 的 包 
并 安装 。 接 下 来 展示 如 何 准备 用 于 深度 学 习 的 一 些 特 定 及 包 。 














ElDoc 
































1.5.1 ”神经 网 络 


在 及 中 ， 有 几 个 包 可 以 拟 合 基本 的 神经 网 络 。nnet 包 值得 推荐 ， 可 以 拟 合 有 一 
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Oe 








经 网 络 ， 如 图 1-3 所 示 。 如 果 需 要 nnet 包 更 多 的 细节 ， 我 们 可 以 


参见 Venables, W. N. and Ripley, B. D. (2002). neuralnet 包 也 可 以 拟 合 有 一 个 隐藏 层 
的 浅 层 神经 网 络 , 但 它 可 以 使 用 后 向 传 播 算法 训练 它们 并 允许 自 定义 误差 和 神经 元 
激活 函数 。 最 后 ， 我 们 来 讨论 RSNNS 包 ， 它 是 斯 图 加 特 神经 网 络 仿真 器 〈Stuttgart 





































































































Neural Network Simulator, SNNS) 的 一 个 了 封装。 最 初 ，SNNS 用 C 编号 ， 但 后 
来 移植 到 了 C++ 上 。RSNNS 允许 很 多 类 型 的 模型 在 R 中 拟 合 。 常 见 的 模型 使 用 方 
便 的 封装 就 可 以 训练 ， 提 供 了 常见 的 模型 。 但 是 RSNN 包 基 于 SNN 的 内 容 提 供 了 




































































许多 模型 的 组 成 部 分 ， 因 此 它 可 以 训练 类 型 广泛 的 模型 。 如 果 需 要 RSNNS 包 更 多 
的 细节 ， 我 们 可 以 参见 Bergmeir, C. 和 Benítez, J. M. (2012)。 在 本 书 第 2 章 
们 将 看 到 使 用 这 些 模型 的 例子 。 现 在 ,我们 可 以 将 下 列 代码 添加 并 保存 到 

















, 我 











checkpoint.R 脚本 中 ， 然 后 安装 这 些 包 。 保 存 非常 重要 ! 因为 如 果 R 脚本 的 改 

















变 没有 写 到 磁盘 上 








安装 不 了 。 





di 








» JA checkpoint () 函数 就 不 会 有 改变 ， 也 找 不 到 新 包 ， 更 


## neural networks 


library (nnet) 


library (neuralnet) 
library (RSNNS ) 











现在 ,如 果 我 们 重 运 行 checkpoint () 并 成 功 ,R 会 告诉 我 们 它 发 现 了 8 个 包 ， 
而 且 它 安装 了 nnet、neuralnet、RSNNS 以 及 RSNNS 必需 的 Repp 包 。 








1.5.2 deepnet 包 





























deepnet 包 为 R 中 的 深度 学 习 提 供 了 许多 工具 。 特 别 是 它 可 以 训练 RBM 并 
使 用 这 些 RBM 作为 DBN 的 一 部 分 来 生成 初始 值 ， 进 而 训练 深度 神经 网 络 。 







































































deepnet 包 也 接受 不 同 的 激活 函数 ， 同 时 使 用 丢弃 来 正则 化 。 为 了 安装 这 个 包 ， 
我 们 遵从 之 前 使 用 的 相同 过 程 ， 为 checkpoint.R 添 加 代码 ， 保 存 ， 再 重新 运 

















ÍT checkpoint () 函数 。 
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## deep learning 
library (deepnet) 


1.5.3 darch 包 





darch 包 基 于 George Hinton 开发 的 Matlab 代码 ， 它 代表 深度 学 习 架 构 。 它 可 以 
联合 彼此 相关 的 大 量 选项 ， 来 训练 RBM 和 DBM。darch 包 有 一 个 缺陷 ， 因 为 它 是 
一 种 纯粹 的 及 实现 ， 所 以 模型 训练 往往 很 慢 。 为 了 安装 这 个 包 ， 我 们 遵从 之 前 使 用 
的 相同 过 程 ， 为 checkpoint.R 添加 人 代码， 保存， 再 重新 运行 checkpoint () 
函数 。 












































## deep learning 
library (darch) 


1.5.4 H20 包 




















H20 包 提 供 了 一 个 到 H20 软件 的 接口 。H20 用 Java 编写 ， 又 快 又 可 扩展 。 它 
不 仅 提 供 深 度 学 习 的 功能 ， 还 提供 许多 其 他 流行 的 机 器 学 习 的 算法 和 模型 ， 另 外 ， 
模型 结果 可 以 存储 为 纯粹 的 Java 代码 ， 可 以 进行 快速 评分 、 推 进 部 署 模 型 ， 从 而 解 
决 真实 世界 的 问题 。 为 了 安装 这 个 包 ， 我 们 遵从 之 前 使 用 的 相同 过 程 ， 为 
checkpoint.R 添加 代码 ， 保 存 ， 再 重新 运行 checkpoint() 函 数 。 
























































## deep learning 
library (h20) 


1.6 连接 R 和 H2O 





因为 H20 是 一 个 基于 Java H R 封装 软件 ， 为 了 与 R 连接 ， 我们 必须 初始 化 一 
个 H20 实例 并 把 它 和 R 连结 起 来 ， 把 数据 和 模型 命令 连结 或 传递 给 这 个 实例 。 在 
本 节 ， 我 们 将 展示 如 何 准备 好 去 训练 使 用 H20 的 模型 。 
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1.6.1 初始 化 H20 


为 了 初始 化 一 个 H20 集群 ， 我 们 使 用 h2o.init O 函数 。 集 群 的 初始 化 也 将 























建立 一 个 轻 量 级 的 Web 服务 器 , 它 可 以 通过 本 地 网 页 与 软件 进行 交互 。h2o.init () 
函数 通常 都 有 合理 的 缺 省 值 ， 但 我 们 可 以 自 定 义 它 的 许多 方面 ， 尤 其 好 的 是 ， 自 定 





















































义 使 用 的 核 /线程 的 个 数 以 及 我 们 为 它 配置 的 内 存 大 小 ， 都 可 以 在 下 列 使 用 了 
max mem size 和 nthreads 参数 的 代码 中 完成 。 在 下 面 的 代码 中 ， 我 们 使 用 两 
个 线程 和 多 达 3G 的 内 存 来 初始 化 H20 集群 。 代 码 运行 之 后 , R 将 给 出 日 志文 件 的 





















































位 置 、Java 版 本 以 及 集群 的 细节 。 














cl <- h2o.init( 
max mem size - "3G", 
nthreads - 2) 


H20 is not running yet, starting it now... 


Note: In case of errors look at the following log files: 





C:\Users\jwile\AppData\Local\Temp\RtmpuelhZm/h2o_jwile started | 


from r.out 





C:\Users\jwile\AppData\Local\Temp\RtmpuelhZm/h2o_jwile started | 


from r.err 


java version "1.8.0 66" 
Java(TM) SE Runtime Environment (build 1.8.0 66-018) 
Java HotSpot(TM) 64-Bit Server VM (build 25.66-b18, mixed mode) 











.Successfully connected to http://127.0.0.1:54321/ 


R is connected to the H20 cluster: 
H20 cluster uptime: 1 seconds 735 milliseconds 
H20 cluster version: 3.6.0.8 
H20 cluster name: H20 started from R jwile ndx127 





H20 cluster total nodes: 1 


H20 cluster total memory: 2.67 GB 








H20 cluster total cores: 4 
H20 cluster allowed cores: 2 
H20 cluster healthy: TRUE 











一 旦 这 个 集群 完成 初始 化 , 我 们 可 以 使 用 及 或 本 地 主机 (127.0.0.1:54321) 
提供 的 web HO EER, WA 1-6 所 示 。 























EJ H20 Flow xX EL = o x 
< > O | 1270015243 nd 六 | 三 —- 
H,O FLOW Flow ~ Cell ~ Data ~ Model ~ Score ~ Admin Help ~ 
Untitled Flow 
De t^v. xX OS 059 W»» o » 
assist S OUTLINE FLOWS CLIPS HELP 
Q Help fi 
© Assistance Using Flow for the first time? 
Routine Description B Quickstart Vid 
uickstart Videos 
& importFiles Import file(s) into H20 
HB getFrames Get a list of frames in H2O 
8€ splitFrame Split a frame into two or more frames hes t Flows to explore and 
earn . 
d getModels Get a list of models in H2O ? 
5  getPredictions Getalist of predictions in H20 STAR H20 ON GITHUB! 
= getJobs Get a list of jobs running in H2O © star 461 
© buildModel Build a model 
© importModel Import a saved model GENERAL 
y predict Make a prediction e Flow Web Ul... 


e ... Importing Data 

. Building Models 

e ... Making Predictions 

e ... Using Flows 

e .. Troubleshooting Flow 


EXAMPLES 


Flow packs are a great way to explo: 


@ Ready Connections: 0 HO 








1.6. ”数据 集 连结 到 H20 集群 


这 





























需要 使 用 下 面 代码 所 示 的 as.h200 pA 2 » 


h2 


我 们 可 以 通 





oiris <- as.h2o( 


droplevels(iris[1:100, 





] ) ) 
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有 E 有 儿 种 方法 可 以 将 数据 载 入 H20 集群 。 如 果 数 据 集 已 经 下 载 到 RS 我 们 只 








过 键入 R 对 象 h2oiris 来 确认 结果 ， 这 个 对 象 只 是 一 个 包含 了 引用 


H20 数据 的 对 象 。 当 我 们 尝试 打印 它 时 ，R API 会 查询 H20. 


h2 


这 上 


Oo oO fF WN HB 


oiris 











Io 








会 返回 如 下 输出 。 





Sepal.Length Sepal.Width Petal.Length Petal.Width Species 


5 


aoa A ad 


1 


e O 0 N «o 


[100 rows x 5 columns] 


我 们 也 能 检查 因子 变量 的 水 平 ， 


h20.levels(h2oiris, 5) 





[1 


] setosa 


3 


C0 C0 WW WwW 


5 


OD FN CO 


versicolor 





在 真实 世界 的 应 
导入 H20 GE R 中 对 数据 再 创建 





























HP, Zimt 


1.4 0.2 setosa 
1.4 0.2 setosa 
14.3 0.2 setosa 
1.5 0.2 setosa 
1.4 0.2 setosa 
Te 0.4 setosa 





比如 Species 变量 ， 代 码 如 下 所 示 。 








可 能 已 经 在 某 处 存在 。 与 其 把 数据 载 入 R， 不 如 

















份 不 必要 








的 副本 代价 昂贵 )， 我 们 可 以 直接 把 数 
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HA H20. 
































首先 ， 我 们 基于 内 置 的 mtcars 数据 集 创 建 一 个 CSV 文件 ， 然 后 通知 


H20 实例 使 用 R 读数 据 ， 接 着 再 次 打印 ， 数 据 显示 如 下 所 示 。 


write.csv (mtcars, 


file 


h2omtcars «- h2o.importFile( 


path = "mtcars.csv") 


h2omtcars 


1 
2 
3 
4 Hornet 4 Drive 
5 Hornet Sportabout 
6 
[ 


最 后 ， 数 据 不 必 载 入 本 地 硬 





Mazda RX4 
azda RX4 Wag 
Datsun 710 


Valiant 


32 rows x 12 columns] 


Cl mpg cyl disp hp drat wW 
21.0 6 160 110 3.90 2.62 
21.0 6 160 110 3.90 2.87 
22.8 4 108 293 3.85 2.32 
21.4 6 258 110 3.08 3.21 
18.1 8. .360:175 3.15 3.44 
18.1 6 225 105 2.76 3.46 

盘 。 在 最 后 一 个 例子 里 











"mtcars.csv") 















































t qsec vs am gear carb 
0 16.46 1 4 4 

5 E5202 
0 18.61 
5 19.44 
0 17.02 
0 20.22 





E ux» WS ES E 4023 


1 4 4 
1 4 1 
0 3 1 
0 3 2 
0 3 1 


， 我 们 也 能 请 求 H20 ME 




















示 的 URL 读 入 数据 。 这 个 例子 使 用 了 UCLA 统计 咨询 集团 提供 的 数据 集 。 


h2obin «- h2o.importFile( 


path 


h2obin 


admit 


oO Ui WN PB 
OPPP oO 














"http://www.ats.ucla.edu/stat/data/binary.csv") 


gre 
380 
660 
800 
640 
520 
760 


[400 rows x 


C) NU 4 CO W 


gpa 
.61 
.67 
.00 
.19 
.93 
.00 


rank 


N Fe a FP C CO 


columns] 


1.7 小结 














本 章 简要 介绍 了 神经 网 络 和 深度 神经 网 络 。 深 度 神经 网 络 使 用 了 多 个 隐藏 层 ， 
通过 提供 强大 的 无 监督 学 习 和 特征 提取 部 分 ， 已 成 为 机 器 学 习 中 的 一 场 革 命 ，] 
的 特征 提取 部 分 可 以 独立 使 用 ， 也 可 以 作为 有 监督 学 习 的 集成 部 分 。 
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这 些 模型 有 许多 应 用 ， 而 且 还 越 来 越 多 地 在 包括 谷歌 、 微 软 和 脸 书 这 种 大 公司 
得 到 使 用 。 深 度 学 习 的 应 用 例子 有 图 像 识 别 ( 例 如 自动 标注 面孔， 或 者 识别 图 像 的 
关键 词 )、 语 音 识 别 、 文 本 翻译 《例如 从 英语 到 西班牙 语 ， 反 之 亦 然 )。 它 甚至 可 以 
在 文本 识别 上 发 挥 作用 ， 比 如 情感 分 机 ， 它 可 以 判断 一 个 句子 或 一 个 段 沙 大 致 上 是 
正面 的 还 是 负面 的 ， 这 对 于 评价 一 项 产品 或 服务 的 看 法 很 有 用 。 设 想 我 们 可 以 获取 
与 我 们 产品 相关 的 任何 评论 和 社交 媒体 ， 与 一 个 月 或 者 一 年 之 前 的 情形 对 比分 析 ， 
正面 的 讨论 变 得 更 多 还 是 更 少 。 










































































































































































本 章 还 展示 了 如 何 设置 R 以 及 需要 安装 的 软件 和 包 , 本 书 采用 的 可 重复 方式 匹 
配 本 书 使 用 的 版 本 。 




















在 第 2 章 中 ， 我 们 开始 训练 神经 网 络 并 自己 生成 预测 。 























第 2 章 
训练 预测 模型 














本 章 通 过 实践 例子 来 展示 如 何在 R 中 建立 并 训练 基本 的 神经 网 络 。 这 些 例子 
也 强调 了 评价 模型 不 同 的 调节 参数 的 重要 性 从 而 找到 最 佳 的 参数 集合 。 尽 管 评价 
多 种 调节 参数 有 助 于 模型 的 性 能 提升 ， 但 是 它 也 会 引起 过 拟 合 的 问题 ， 这 是 本 章 
讨论 的 第 二 个 主题 。 本 章 结尾 使 用 了 数据 分 类 的 例子 ， 活 动 数据 来 自 于 行走 、 上 
下 楼 梯 、 坐 下 、 站 立 或 躺 倒 时 的 智能 手机 。 




























































































xr 














本 章 包 括 下 列 主题 。 
。 及 中 的 神经 网 络 
。 过 拟 合 数据 的 问题 一 一 结果 解释 














。 建立 案例 并 运用 神经 网 络 方法 


2.1 R 中 的 神经 网 络 




















为 了 在 R 中 训练 基本 〔( 即 隐藏 层 数目 为 单个 的 “ 浅 层 的 ”) 神经 网 络 ， 我 们 将 
使 用 nnet 包 和 RSNNS 包 [ Bergmeir, C. 和 Benitez, J. M. (2012)]. Æ% 1 章 ， 这 些 
包 已 经 安装 并 通过 了 2016 F2 月 20 日 的 检查 点 ， 因 此 我 们 的 结果 完全 可 重复 。 尽 
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管 可 以 与 nnet 包 直 接连 接 , 我 们 还 是 通过 caret 包 来 使 用 它 。caret 是 “Classification 
and Regression Training”( 分 类 与 回归 训练 ) 的 缩写 。caret 包 提 供 了 标准 化 的 接口 
GR 中 许多 机 器 学 习 模 型 协作 (Kuhn，2008; Kuhn 和 Johnson，2013)， 而 且 对 验 
证 和 性 能 评估 提供 了 许多 有 用 的 特征 ， 我 们 会 在 本 章 和 第 3 章 中 使 用 这 些 应 用 。 




































































我 们 建立 神经 网 络 的 第 一 个 例子 ， 这 里 使 用 了 一 个 经 典 的 分 类 问题 一 一 基于 图 
片 识别 手写 体 数 字 。 数 据 可 以 从 https://www.kaggle.com/c/digit- 
recognizer Fa, 格式 是 易于 使 用 的 CSV 格式 , 其 中 数据 集 的 每 一 列 〈 即 特征 )， 
表示 图 像 的 一 个 像素 。 每 张 图 像 都 经 过 标准 化 处 理 ， 转 化 成 同样 的 大 小 ， 所 以 所 有 
图 像 的 像素 个 数 都 相同 。 第 一 列 包含 真实 的 数据 标签 ， 其 余 各 列 是 黑暗 像素 的 值 ， 
它 用 于 分 类 。 下 载 文件 的 名 称 分 别 为 train.csv 和 test.csv， 和 有 脚本 存放 在 
同一 个 文件 夹 中 ， 因 此 很 容易 读 取 。 如 果 它 们 放 入 不 同 的 文件 夹 ， 我 们 上 只 需要 相应 
改变 路 径 。 





































































































2.1.1 建立 神经 网 络 























首先 ， 我 们 先 载 入 包 ， 在 我 们 需要 载 入 的 脚本 中 调用 source 0 并 对 使 用 的 版 
本 设置 检查 点 。 然 后 ， 我 们 可 以 读 取 从 Kaggle 下 载 的 数据 并 浏览 它 的 样子 。 














source ("checkpoint.R") 





# output omitted 


digits.train <- read.csv("train.csv") 


dim(digits.train) 


[1] 42000 785 


head(colnames(digits.train), 4) 





[1] "label" "pixelO" "pixell" "pixel2" 


tail(colnames(digits.train), 4) 
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[1] "pixel780" "pixel781" "pixel782" "pixel783" 


head(digits.train[, 1:4]) 


label pixel0 pixell pixel2 





OY OF WN FP 
oOo o fF FO HR 
CO. On “Ov X» 0X 7C» 
Oo OS? Or Os: “Or 
(3:6 0X. C» CX. +O 














我 们 将 标签 (数字 0 一 9) 转换 为 因子 ， 使 R 知道 这 是 一 个 分 类 问题 而 不 是 回 
归 问 题 。 如 果 这 个 问题 是 真实 的 ， 那 我 们 就 尽量 使 用 全 部 42 000 个 观测 ， 但 为 了 缩 
减 运行 时 间 ， 对 这 个 例子 我 们 只 选择 前 5 000 个 观测 来 建立 并 训练 神经 网 络 。 我 们 
把 数据 分 解 成 特征 或 预测 子 (digits .X) 和 输出 (digits.Y)， 使 用 除 标签 之 外 
所 有 的 列 作为 这 里 的 预测 子 。 






































## convert to factor 

digits.train$label <- factor(digits.train$1abel, levels = 0:9) 
i «- 1:5000 

digits.X «- digits.train[i, -1] 





digits.y «- digits.train[i, 1] 














最 后 ， 在 开始 建 并 神经 网 络 之 前 ， 我 们 需要 先 迅速 检查 一 下 数字 的 分 布 ， 这 一 
点 很 重要 。 例 如 ， 一 个 数字 很 少 出 现 ， 但 同时 我 们 还 很 关心 这 个 数字 的 精确 预测 ， 
那 我 们 需要 调整 建 模 方法 ,来 做 到 即使 它 很 少 出 现 ， 在 评估 性 能 时 也 会 赋予 它 足 够 
的 权重 。 下 面 的 代码 片段 创建 了 一 个 条 形 图 , 显示 了 每 个 数字 标签 的 频数 , 如 图 2-1 
所 示 。 它 们 的 分 布 相当 均匀 , 因此 我 们 不 需要 对 任何 特别 的 数字 增加 权重 或 重要 性 。 

















4 










































































barplot(table(digits.y)) 
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现在 ， 我 们 通过 caret 包 的 封装 来 使 用 net 包 建 立 和 训练 第 一 个 神经 网 络 。 首 
Fé, 我 们 使 用 set . seeq 0 函数 来 指定 特定 的 种 子 ,使 结果 可 以 重复 。 精确 的 种 子 
并 不 重要 。 重 复 相 同 的 种 子 这 种 方法 同样 也 运用 于 后 面 的 例子 ， 因 为 真正 重要 的 是 
相同 的 模型 使 用 相同 的 种 子 ， 而 非 不 同 的 模型 使 用 不 同 或 相似 的 种 子 。train () 
函数 首先 取 特 征 或 预测 子 数据 作为 x 参数 , 然后 取 输 出 变量 作为 y BRL. train () 
可 以 处 理 许多 模型 ， 通 过 method 参数 来 控制 。 虽 然 机 器 学 习 模 型 的 许多 方面 都 是 
自动 学 习 的 ， 但 是 茶 些 参数 还 需要 人 为 设置 。 它 们 随 着 使 用 方法 而 变 。 例 如 ， 在 神 
经 网 络 中 ， 有 一 个 参数 是 隐藏 单元 的 个 数 。 在 需要 尝试 多 种 调节 参数 时 ，train () 
函数 提供 了 一 种 容易 的 方法 ， 将 它 作 为 一 个 指定 的 数据 框 传递 给 tuneGrid 参数 。 对 
每 个 调节 参数 的 集合 ， 它 都 返回 性 能 度量 和 最 好 的 训练 模型 。 我 们 的 初始 情况 是 ， 
在 模型 中 只 有 5 个 隐藏 神经 元 以 及 一 个 适中 的 衰变 率 ， 有 时 它 也 称 为 “学 习 率 ”。 
学 习 率 控制 了 每 个 迭代 或 步骤 对 当前 权重 的 影响 。 妃 一 个 参数 trControl 控制 了 
train () 的 其 他 部 分 ， 当 评估 多 种 调节 参数 时 ， 用 于 通知 caret 包 如 何 证实 并 挑选 
出 最 佳 的 调节 参数 。 
































































































































对 这 个 例子 , 我 们 把 训练 控制 的 方法 设置 为 none， 因为 我 们 此 时 只 使 用 了 一 组 
调节 参数 。 最 后 ， 我 们 可 以 指定 额外 的 命名 参数 ， 它 们 传递 给 真实 的 nnet () 函数 
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《或 者 无 论 指定 的 什么 算法 )。 根 据 预 测 子 的 个 数 〈784)， 我 们 把 最 大 权重 个 数 提高 
为 10 000 并 指定 最 大 达 代 次 数 为 100。 因 为 数据 数量 相对 较 小 而 且 缺 乏 隐 藏 的 神经 
元 ， 运 行 这 个 模型 的 时 间 不 会 很 长 。 





set.seed(1234) 
digits.ml «- train(x = digits.X, y = digits.y, 
method = "nnet", 
tuneGrid = expand.grid ( 
.Size = c(5), 
.decay = 0.1), 
trControl = trainControl (method = "none"), 
MaxNWts = 10000, 
maxit - 100) 





predict () 函数 生成 了 数据 的 一 组 预测 。 我 们 在 不 指定 任何 新 数据 的 情形 下 
调用 模型 结果 ， 结 果 它 只 在 训练 的 相同 数据 上 生成 了 预测 。 在 计算 和 存储 预测 数学 
之 后 ， 我 们 可 以 检查 它们 的 分 布 ， 如 图 2-2 所 示 。 即 使 在 看 到 第 一 个 模型 的 性 能 度 
量 之 前 考虑 到 它 的 真实 分 布 〈“ 图 2-1)， 很 明显 模型 不 是 最 优 的 。 
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图 2-2 


digits.yhatl <- predict (digits.ml) 
barplot (table (digits. yhat1) ) 


分 布 的 图 形 检查 仅仅 是 预测 的 一 个 简单 检查 。 模 型 性 能 的 更 正式 评价 是 使 用 











caret 包 的 confusionMatrix() 函数 。 因 为 在 RSNNS 包 


函数 ， 它 们 难以 区 分 ， 所 以 我 们 使 























版 本 。 输 入 仅仅 是 真实 数字 和 预测 数字 之 间 的 频率 交叉 表 ， 
个 表 来 计算 。 





我 们 有 多 个 数字 ， 因 此 对 怕 





























专门 的 caret:: 代 码 来 告诉 R 使 用 的 函数 是 哪个 
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! 也 有 一 个 相同 名 称 的 

















其 余 的 性 能 指标 基于 这 





FE 能 输出 我 们 给 出 三 个 主要 部 分 。 首 先 ， 我 们 给 出 真 





实 的 频率 交叉 表格 。 正 确 的 预测 位 于 对 角 线 上 ， 错 误 分 类 的 各 个 频率 位 于 对 角 线 之 
外 。 接 下 来 是 总 体 统 计量 ， 它 们 是 指 所 有 类 的 模型 表现 。 准 确 度 仅 仅 指正 确 分 类 的 


实例 比例 ， 有 一 个 95% 的 置信 区 间 ， 这 个 度量 对 较 小 的 数据 集 特别 有 用 





















































因为 它 的 


» 





估计 不 确定 性 相当 大 。 无 信息 率 是 指 ， 不 考虑 任何 信息 而 仅仅 通过 猜测 来 决定 最 频 
繁 的 类 的 准确 度 期 望 。 在 情形 “1” 中 ， 它 在 11.16% 的 时 间 中 发 生 。P 值 检验 了 观 
MEME (44.3%) 是 否 显 车 不 同 于 无 信息 率 (11.2%)。 结 

















的 , 但 对 了 




































































果 尽 管 在 统计 上 是 显著 

















数字 分 类 来 说 并 不 是 很 有 意义 , 我 们 本 来 期 望 会 远 远 好 于 纯 猜测 的 结果 ! 





最 后 ， 它 对 每 个 数字 给 出 了 个 别 的 性 能 指标 。 这 些 指标 都 是 基于 数字 对 其 他 所 有 数 
字 的 比较 而 计算 的 ， 因 此 每 个 指标 都 是 二 元 比较 。 表 2-1 包含 了 计算 各 种 度量 需要 


的 所 有 信息 ， 同 时 所 有 度量 的 公式 也 展示 在 这 里 。 




























































































表 2-1 
AX dà JE 特 异 度 
阳性 预测 值 True positive(TP) False positive(FP) 
阴性 预测 值 False negative(FN) True negative(TN) 
Sensitivity — d 


TP + FN 
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TN 
Specificity — 


Positive Predictive Value(PPV) = 


Negative Predictive Value( NPV ) = 


TP 
Detection Rate — 


TN + FP 


TP 
TP + FP 


TN 
FN +TN 


TP + FN + FP +TN 


TP + FP 





Detection Prevalence = 


TP+ FN + FP+TN 








比如 ， 数 字 “0” 的 灵敏 度 可 以 解释 为 ，78.5% 的 数字 “0” 被 捕捉 或 者 正确 地 


预测 为 数字 “0?。 数 字 “0” 的 特异 度 可 以 解释 为 ， 




















95.2% 的 预测 为 非 数 字 “0” 的 


实例 并 不 是 数字 “0”。 检 出 率 仅 仅 是 真 阳性 的 百分比 ， 而 最 后 的 检 出 预防 度 











(detection prevalence) 是 预测 为 阳性 的 实例 比例 ， 不 管 它们 是 否 真 的 为 阳性 。 

















平衡 




















准 
个 数字 的 同样 信息 。 


























度 Cbalanced accuracy) 是 灵敏 度 和 特异 度 的 平均 值 。 其 余 各 列 展示 了 其 余 各 











caret::confusionMatrix(xtabs(-digits.yhatl + digits.y)) 


Confusion Matrix and Statistics 


digits.y 

digits.yhatl 0 I 2 3 4 
0 388 2 40 41 7 
1 0 495 0 0 
2 0 0 0 0 
3 5T 30 36 379 6 
4 0 0 0 0 
5 0 0 0 0 0 


5 6 7 8 9 
TS 23 4 23 2 
3 0 4 3 4 

0 0 0 0 0 
329 3 18 290 38 
0 0 0 0 0 

0 0 0 0 0 
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6 44 5 304 9-. T31 29 484 9 16 19 
7 11 267 62 5L 333 33 6 470 145 415 
8 0 0 0 0 0 0 0 0 0 0 
9 0 0 0 0 0 0 0 1 0 0 
Overall Statistics 
Accuracy 0.4432 
95% CI (0.4294, 0.4571) 
No Information Rate 0.1116 
P-Value [Acc > NIR] < 2.2e-16 
Kappa 0.3805 
Mcnemar's Test P-Value NA 
Statistics by Class: 
Class: 0 Class: 1 Class: 2 Class: 3 Class: 4 
Sensitivity 0.7854 0.8871 0.000 0.7896 0.0000 
Specificity 0.9518 0.9962 1.000 0.8228 1.0000 
Pos Pred Value 0.6413 0.9668 NaN 0.3212 NaN 
Neg Pred Value 0.9759 0.9860 0.891 0.9736 0.9046 
Prevalence 0.0988 0.1116 0.109 0.0960 0.0954 
Detection Rate 0.0776 0.0990 0.000 0.0758 0.0000 
Detection Prevalence 0.1210 0.1024 0.000 0.2360 0.0000 
Balanced Accuracy 0.8686 0.9416 0.500 0.8062 0.5000 
Class: 5 Class: 6 Class: 7 Class: 8 Class: 9 
Sensitivity 0.0000 0.9380 0.9289 0.0000 0.0000 
Specificity 1.0000 0.8738 0.7370 1.0000 0.9998 
Pos Pred Value NaN 0.4610 0.2845 NaN 0.0000 
Neg Pred Value 0.9062 0.9919 0.9892 0.9046 0.9044 
Prevalence 0.0938 0.1032 0.1012 0.0954 0.0956 
Detection Rate 0.0000 0.0968 0.0940 0.0000 0.0000 
Detection Prevalence 0.0000 0.2100 0.3304 0.0000 0.0002 
Balanced Accuracy 0.5000 0.9059 0.8329 0.5000 0.4999 
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现在 ， 对 于 如 何 建立 、 训 练 和 评价 模型 性 能 ， 我 们 已 经 有 了 一 些 基本 理解 。 我 
们 接 下 来 尝试 一 些 不 同 的 模型 ， 增 加 隐藏 神经 元 的 个 数 ， 这 是 提升 模型 性 能 的 关键 
方法 ， 其 代价 是 模型 复杂 性 的 显著 增加 。 回 顾 第 1 章 ， 每 个 预测 子 或 特征 都 和 每 个 
隐藏 的 神经 元 相连 接 ， 而 且 每 个 隐藏 的 神经 元 和 都 每 个 结果 或 输出 相连 接 。 每 个 增 
加 的 神经 元 有 784 个 特征 ， 再 加 上 大 量 的 参数 ， 导 致 了 运行 时 间 更 长 。 计 算 取决 于 
我 们 的 电脑 性 能 ， 接 下 来 要 为 完成 这 些 模型 等 待 一 段 时 间 。 
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图 2-3 











set.seed(1234) 
digits.m2 «- train(digits.X, digits.y, 
method = "nnet", 
tuneGrid = expand.grid ( 
.Size = c(10), 
.decay = 0.1), 
trControl = trainControl (method = "none"), 
MaxNWts - 50000, 
maxit = 100) 





digits.yhat2 <- predict (digits.m2) 
barplot (table (digits. yhat2) ) 
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caret::confusionMatrix(xtabs (~digits.yhat2 + digits.y)) 


Confusion Matrix and Statistics 





digits.y 
digits.yhat2 0 1 2 3 4 5 6 7 8 9 
0 395 0 14 23 0 120 6 12 ES 5 
1 2 518 35 10 0 7 0 10 8 4 
2 23 23 ,323 15 8 37 30 1 1.5 2 
3 0 4 24 337 0 49 0 12 37 5 
4 3 0 0 0 10 14 2 0 0 0 
5 44 0 20 60 0 146 10 1 235 9 
6 1 1 25 2 0 3. :924 0 3 0 
7 3 1 7 3 3 11 7 392 3 19 
8 0 0 0 0 0 0 1 0 0 0 
9 23 11 97 30 456 82 133 78 161 434 


Overall Statistics 


Accuracy : 0.5764 
95$ CI : (0.5626, 0.5901) 
No Information Rate : 0.1116 
P-Value [Acc > NIR] : < 2.2e-16 


Kappa : 0.5293 
Mcnemar's Test P-Value : NA 


Statistics by Class: 


Class: 0 Class: 1 Class: 2 Class: 3 Class: 4 

Sensitivity 0.7996 0.9283 0.5927 0.7021 0.02096 
Specificity 0.9567 0.9829 0.9654 0.9710 0.99580 
Pos Pred Value 0.6695 0.8721 0.6771 0.7201 0.34483 
Neg Pred Value 0.9776 0.9909 0.9509 0.9684 0.90606 
0.0988 0.1116 0.1090 0.0960 0.09540 

0.0790 0.1036 0.0646 0.0674 0.00200 


Prevalence 





Detection Rate 
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Detection Prevalence 0.1180 0.1188 0.0954 0.0936 0.00580 
Balanced Accuracy 0.8782 0.9556 0.7790 0.8366 0.50838 
Class: 5 Class: 6 Class: 7 Class: 8 Class: 9 





Sensitivity 0.3113 0.6337 0.7747 0.0000 0.9079 
Specificity 0.9164 0.9922 0.9873 0.9998 0.7632 
Pos Pred Value 0.2781 0.9033 0.8731 0.0000 0.2884 
Neg Pred Value 0.9278 0.9592 0.9750 0.9046 0.9874 
Prevalence 0.0938 0.1032 0.1012 0.0954 0.0956 
Detection Rate 0.0292 0.0654 0.0784 0.0000 0.0868 
Detection Prevalence 0.1050 0.0724 0.0898 0.0002 0.3010 
Balanced Accuracy 0.6138 0.8130 0.8810 0.4999 0.8356 











隐藏 神经 元 的 数量 从 5 个 增加 到 10 个 , 样本 内 性 能 的 总 准确 度 从 44.3% 提 升 到 
T 57.6%， 但 这 与 理想 情形 仍 有 相当 大 的 距离 (想象 一 下 字符 识别 软件 会 弄 混 全 部 
字符 的 42.4%!)。 这 一 次 ， 我 们 再 把 隐藏 神经 元 的 数量 增加 到 40 个 ， 完 成 这 个 模 
型 的 训练 还 要 等 更 长 的 时 间 。 































































































set.seed(1234) 
digits.m3 «- train(digits.X, digits.y, 
method = "nnet", 
tuneGrid = expand.grid ( 
.Size = c(40), 


.decay = 0.1), 





trControl = trainControl (method = "none"), 
MaxNWts - 50000, 
maxit = 100) 
digits.yhat3 <- predict (digits.m3) 
barplot (table (digits. yhat3) ) 
caret::confusionMatrix(xtabs (~digits.yhat3 + digits.y)) 


Confusion Matrix and Statistics 
digits.y 


digits.yhat3 0 1 2 3 4 5 6 7 8 
0 461 0 7 3 0 20 16 2 3 7 


2. 有 R 中 的 神经 网 络 31 





工 0 521 3 4 0 2 2 6 10 2 
2 17 3 469 30 2 13 16 10 39 2 
3 I 5 Ii 392 2 43 2 9 48 5 
4 1 0 6 1 394 7 0 4 3 36 
5 3 4 2 23 1 334 12 1 51 6 
6 6 1 19 3 15 10 455 1 3 1 
7 0 2 8 7 5 5 2 411 6 35 
8 2 20 10 46 4 28 9 10 297 23 
9 3 2 10 11 54 7 2 52 17 361 

ce 
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图 2-4 


Overall Statistics 


Accuracy : 0.811 
95% CI : (0.7999, 0.8218) 
No Information Rate : 0.1116 
P-Value [Acc > NIR] : < 2.2e-16 


Kappa : 0.7899 
Mcnemar's Test P-Value : NA 


Statistics by Class: 
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Class: O0 Class: 1 Class: 2 Class: 3 Class: 4 








Sensitivity 0.9332 0.9337 0.8606 0 
Specificity 0.9871 0.9935 0.9704 0 
Pos Pred Value 0.8882 0.9473 0.7804 0 
Neg Pred Value 0.9926 0.9917 0.9827 0 
Prevalence 0.0988 0.1116 0.1090 0 
Detection Rate 0.0922 0.1042 0.0938 0 
Detection Prevalence 0.1038 0.1100 0.1202 0 
Balanced Accuracy 0.9602 0.9636 0.9155 0. 


£1333 0.8260 
.9721 0.9872 
.7364 0.8717 
:9717 0.9818 
.0960 0.0954 
.0704 0.0788 
.0956 0.0904 


8527 0.9066 


Class: 5 Class: 6 Class: 7 Class: 8 Class: 9 





Sensitivity 0.7122 0.8818 0.8123 0. 
Specificity 0.9773 0.9868 0.9844 0 
Pos Pred Value 0.7643 0.8852 0.8545 0 
Neg Pred Value 0.9704 0.9864 0.9790 0 
Prevalence 0.0938 0.1032 0.1012 0 
Detection Rate 0.0668 0.0910 0.0822 0 
Detection Prevalence 0.0874 0.1028 0.0962 0 
Balanced Accuracy 0.8447 0.9343 0.8983 0 














6226 0.71552 


.9664 0.9651 
.6615 0.6956 
.9604 0.9739 
.0954 0.0956 
.0594 0.0722 
.0898 0.1038 
.7945 0.8601 


我 们 使 用 了 40 个 隐藏 神经 元 后 , 性 能 的 提高 引 人 注 目 , 总 准确 度 上 升 到 81.1%。 
模型 性 能 对 数字 3、5、8 和 9 还 不 是 很 优异 ， 但 对 其 他 数字 相当 好 。 如 果 这 是 一 项 
实际 研究 或 商业 问题 ， 我 们 会 继续 尝试 增加 神经 元 的 数量 ， 调 节 有 聚变 率 ， 或 者 为 了 






































提升 性 能 而 修正 特征 ， 但 现在 ， 我 们 的 话题 将 继续 深入 。 




















接 下 来 ， 我 们 看 看 如 何 使 用 RSNNS 包 训 练 神经 网 络 。 对 于 可 能 使 用 斯 图 加 特 























ES 





经 网 络 仿真 器 〈Stuttgart Neural Network Simulator, SNNS) 代码 的 诸多 模型 ， 这 














个 包 提供 了 相应 的 接口 。 但 是 ， 对 基本 的 、 单 隐藏 层 的 、 前 馈 的 匀 








经 网 络 ， 我 们 可 














以 使 用 mlp0O 这 个 更 为 方便 的 封闭 函数 ， 它 的 名 称 表 示 多 层 感 知 器 
(multi-layer perceptron)。 相 比 于 方便 的 nnet 包 ，RSNNS 包 的 使 用 要 通过 caret 包 ， 
难度 相对 较 高 ， 但 优点 在 于 更 灵活 并 且 可 以 训练 更 多 的 神经 网 络 架 构 ， 包 括 循环 神 









































经 网 络 以 及 种 类 更 广泛 的 学 习 函数 。 
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nnet 包 和 RSNNS 包 之 间 的 区 别 在 于 结果 的 多 分 类 【比如 儿 个 数字 )，RSNNS 
要 求 一 个 哑 编 码 的 和 矩阵， 因此 每 个 可 能 的 类 表示 成 矩阵 列 中 的 0/1 编码 。 使 用 
decodeClassLabels0 函 数 可 以 很 容易 做 到 ， 接 下 来 显示 了 一 些 输出 。 


















































head (decodeClassLabels(digits.y)) 





~ 
BO O nH OS 
SO cox p o We 4s 
O OS OO O N 
OD OS I5 
Quoc qp cx €x 
CX Or OO: (OO ^q 
OC» OP O HX» JV 
OO 0 0-14 
oO OO € Og 
OD ONS. OO Jg 




















因为 使 用 40 个 隐藏 神经 元 后 已 经 获得 了 相当 的 成 功 ， 这 里 我 们 使 用 相同 的 数 
目 。 基 于 Riedmiller, M. 和 Braun, H. (1993) 的 经 典 工 作 , 我 们 使 用 弹性 传播 作为 学 
习 函 数 ， 而 非 标准 传播 。 注 意 ， 因 为 传递 了 一 个 矩阵 的 结果 ， 尽 管 任 何 单一 数字 的 
预测 概率 不 会 超过 1， 所 有 数字 的 预测 概率 和 也 许 会 超过 1 也 许 会 小 于 1《 即 在 某 
些 情况 下 ， 这 些 模 型 未 必 能 预测 ， 它 们 很 可 能 代表 任何 一 个 数字 )。 和 之 前 一 样 
我 们 可 以 得 到 样本 内 预测 ， 但 在 这 里 我 们 要 使 用 其 他 函数 ，fitteqd.values () 。 
因为 这 一 次 还 是 返回 一 个 矩阵 , 每 列 代表 单个 数字 , 我 们 使 用 encodeClassLabels () 
函数 把 结果 转化 成 数字 标签 的 单个 向 量 从 而 画图 ， 如 图 2-5 所 示 ， 并 评价 模型 性 能 。 
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set.seed(1234) 
digits.m4 «- mlp(as.matrix(digits.X), 
decodeClassLabels (digits.y), 








size - 40, 

learnFunc = "Rprop", 
shufflePatterns = FALSE, 
maxit = 60) 


digits.yhat4 <- fitted.values (digits.m4) 
digits.yhat4 <- encodeClassLabels (digits. yhat4) 
barplot (table (digits. yhat4) ) 





34 第 2 章 训练 预测 模型 


























一 旦 我 们 预测 了 概率 ， 使 用 nnet 包 和 caret 包 评 价 模型 性 能 就 完全 一 样 了 。 唯 
一 的 隐患 是 ， 当 输出 被 编码 返回 单个 向 量 时 ， 默 认 数字 标记 为 1 Bk, 其 中 大 是 类 
别 个 数 。 因 为 数字 是 从 0 到 9， 为 了 使 它们 匹配 原始 数值 向 量 ， 我 们 减 去 了 1。 接 
下 来 我 们 可 以 看 到 ， 使 用 RSNNS 包 的 学 习 算法 并 使 用 了 相同 数目 的 隐藏 神经 元 ， 
我 们 的 计算 结果 的 性 能 稍 有 提高 。 接 下 来 ， 我 们 预测 样本 外 数据 。 





















































caret::confusionMatrix(xtabs(~ I(digits.yhat4 - 1) + digits.y)) 


Confusion Matrix and Statistics 


中 
12 2 0 14 3 376 
4 2 2 3 12 493 


digits.y 

I(digits.yhat4 - 1) 0 1 2 3 4 b 6 7 8 9 
0 451 0 0 1 0 2 3 2 1 1 
1 0 534 4 2 3 1 0 7 11 2 
2 6 3 496 17 3 4 2 4 20 1 
3 9 5 11 406 3 21 0 2 I3 10 
4 2 6 0 415 7 4 4 9 24 
5 8 4 23 13 
6 2 
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7 3 0 10 7 4 1 1 460 1 37 
5 9. 14 28 12 31 5 8 375 13 
0 2 3 31 14 0 13 15 376 


Overall Statistics 
Accuracy : 0.8764 
95% CI : (0.867, 0.8854) 
No Information Rate : 0.1116 


P-Value [Acc » NIR] : « 2.2e-16 


Kappa : 0.8626 
Mcnemar's Test P-Value : NA 


Statistics by Class: 


Class: 0 Class: 1 Class: 2 Class: 3 Class: 4 





Sensitivity 0.9130 0.9570 0.9101 0.8458 0.8700 
Specificity 0.9978 0.9932 0.9865 0.9836 0.9874 
Pos Pred Value 0.9783 0.9468 0.8921 0.8458 0.8792 
Neg Pred Value 0.9905 0.9946 0.9890 0.9836 0.9863 
Prevalence 0.0988 0.1116 0.1090 0.0960 0.0954 
Detection Rate 0.0902 0.1068 0.0992 0.0812 0.0830 
Detection Prevalence 0.0922 0.1128 0.1112 0.0960 0.0944 
Balanced Accuracy 0.9554 0.9751 0.9483 0.9147 0.9287 





Class: 5 Class: 6 Class: 7 Class: 8 Class: 9 





Sensitivity 0.8017 0.9554 0.9091 0.7862 0.7866 
Specificity 0.9826 Q::9913 0.9858 0.9724 0.9823 
Pos Pred Value 0.8264 0.9267 0.8779 0.7500 0.8246 
Neg Pred Value 0.9795 0.9949 0.9897 0.9773 0.9776 
Prevalence 0.0938 0.1032 0.1012 0.0954 0.0956 
Detection Rate 0.0752 0.0986 0.0920 0.0750 0.0752 
Detection Prevalence 0.0910 0.1064 0.1048 0.1000 0.0912 
Balanced Accuracy 0.8921 0.9734 0.9474 0.8793 0.8845 
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2.1.2 ”从 神经 网 络 生成 预测 





到 现在 为 止 ， 我 们 仅仅 在 用 于 训练 神经 网 络 的 相同 数据 上 生成 了 样本 内 预测 ， 
而 且 为 了 获得 分 类 接受 了 所 有 的 缺 省 配置 。 然 而 ， 即 使 模型 受到 了 训练 ， 实 际 上 也 
存在 一 些 选择 。 任 何 给 定 的 观测 都 有 概率 成 为 任何 一 个 类 别 成 员 ( 例 如 ， 一 个 观测 
有 40% 的 概率 成 为 “5” 20% 的 概率 成 为 “6” 等 等 )。 为 了 评价 模型 性 能 ， 对 于 
如 何 从 类 别 成 员 的 概率 映射 到 离散 分 类 ， 我 们 需要 做 出 一 些 选 择 。 在 本 节 中 ， 我 们 
将 更 加 细致 地 探索 一 些 这 样 的 参数 ， 同 时 在 没有 用 于 训练 模型 的 数据 上 看 看 生成 的 
预测 。 































































































只 要 完美 关系 不 存在 ， 最 简单 的 方法 就 是 基于 高 预测 概率 来 对 观测 进行 分 类 。 
另 有 一 种 方法 ，RSNNS ARA mA (winner takes all, WTA) 方法 ， 这 是 指 只 
要 没有 关系 就 选择 概率 最 高 的 类 ， 最 高 的 概率 高 于 用 户 定义 的 阔 值 (这 个 阔 值 可 以 
是 0), 而 其 他 类 的 预测 概率 都 低 于 最 大 值 减 去 另 一 个 用 户 定 义 的 闵 值 。 否则 观测 的 
分 类 就 不 明了 。 如果 这 两 个 阔 值 都 是 0( 缺 省 ), 这 等 于 说 最 大 值 必然 存在 并 且 唯 一 。 
这 种 方法 的 优点 是 它 提 供 了 某 种 质量 控制 。 在 我 们 曾经 探索 的 数字 分 类 例子 中 ， 存 
在 10 种 可 能 的 分 类 。 假 设 当中 的 9 个 有 0.099 的 预测 概率 ， 其 余 的 一 类 有 0.101 的 
预测 概率 。 尽 管 有 一 类 比 其 他 各 类 在 技术 上 更 合适 ， 这 种 差异 太 微小 ， 而 且 可 以 推 
断 模 型 无 法 区 分 出 这 个 预测 。 最 后 一 种 分 类 方法 称 为 “402040”， 这 是 指 如 果 一 个 
值 高 于 一 个 用 户 定义 的 浆 值 ， 而 所 有 的 其 他 值 低 于 用 户 定义 的 另 一 个 阔 值 。 如 果 多 
个 值 都 高 于 第 一 个 阔 值 ， 或 者 任何 值 都 不 低 于 第 二 个 阅 值 ， 我 们 就 把 观测 定性 为 未 
的 。 这 样 做 的 目的 是 再 次 给 出 了 某 种 质量 控制 。 看 起 来 这 可 能 并 不 必要 ， 因 为 预 
测 的 不 确定 性 会 出 现在 模型 性 能 中 。 但 是 , 它 有 助 于 明确 我 们 的 模型 对 错 是 否 确 定 。 
最 后 ， 在 有 些 情 况 下 ， 并 非 所 有 类 的 重要 性 都 相同 。 例 如 ， 在 一 个 医学 背景 下 ， 我 
们 收集 了 病人 的 多 种 生物 指标 和 基因 信息 ， 用 来 分 类 确定 他 们 是 否 健康 ， 是 否 有 患 
症 的 风险 ， 是 否 有 患 心脏 病 的 风险 ,即使 有 40% 的 患 癌 概率 也 需要 病人 进一步 做 
查 ， 即 使 健康 的 概率 是 60%。 这 与 我 们 之 前 见 过 的 性 能 度量 有 关 ， 在 那些 性 能 度 
量 中 ， 除 了 总 准确 度 ， 我 们 能 评估 诸如 灵敏 度 、 特 异 度 、 正 预测 值 和 负 预 测 值 这 些 
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方面 的 性 能 。 这 是 总 准确 度 比 确保 无 遗漏 次 要 的 情况 。 


















































下 面 的 代码 展示 了 样本 内 数据 的 原始 概率 以 及 这 些 不 同 的 选择 对 预测 值 的 


影响 。 


digits.yhat4.insample <- fitted.values (digits.m4) 
head (round (digits.yhat4.insample, 2)) 














[,1 [,2] L3] L4] L5] [,6] L7] [,8] L9] 1,10] 
[1,] 0.00 0.89 0.00 0.01 0.00 0.00 0.00 0.00 0.21 0 
[2,] 0.99 0.00 0.00 0.02 0.00 0.00 0.00 0.01 0.00 0 
[3,] 0.00 1.00 0.09 0.00 0.00 0.00 0.00 0.05 0.00 0 
[4,] 0.00 0.00 0.00 0.00 0.22 0.00 0.02 0.05 0.00 0 
[5,] 1.00 0.00 0.02 0.00 0.00 0.00 0.00 0.00 0.00 0 
[6,] 0.99 0.00 0.00 0.00 0.00 0.06 0.00 0.00 0.00 0 
table (encodeClassLabels (digits.yhat4.insample, 
method = "WTA", 1 = 0, h = 0)) 
1 2 3 4 5 6 7 8 9 10 
461 564 556 480 472 455 532 524 500 456 
table (encodeClassLabels (digits. yhat4.insample, 
method = "WTA", 1 = 0, h = .5)) 
0 I 2 3 4 5 6 7 8 9 10 
569 448 544 497 400 429 366 499 463 379 406 
table (encodeClassLabels (digits.yhat4.insample, 
method = "WTA", 1 = .2, h = .5)) 


0 1 2 3 4 5 6 7 8 9 10 
658 443 542 490 393 408 358 493 460 364 391 





table (encodeClassLabels (digits.yhat4.insample, 
method = "402040", 1 = .4, h= .6)) 
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0 1 2 3 4 5 6 7 8 9 10 
907 431 526 472 363 383 326 475 448 301 368 






































使 用 predict O 函数 ， 我 们 可 以 很 容易 生成 预测 值 。 对 此 ， 我 们 将 使 用 接 下 
来 的 5000 个 观测 。 注 意 ， 即 使 在 一 个 新 桌面 上 生成 这 些 预 测 也 需要 花费 几 分钟 的 
时 间 。 




















i2 «- 5001:10000 
digits.yhat4.pred <- predict (digits.m4, 


as.matrix(digits.train[i2, -1])) 


table (encodeClassLabels (digits.yhat4.pred, 
method = "WTA", 1 = 0, h = 0)) 





1 2 3 4 5 6 7 8 9 10 
449 570 531 518 476 442 522 533 468 491 


生成 了 样本 外 数据 《就 是 说 ， 那 些 没 用 于 预测 模型 的 数据 ) 的 预测 之 后 ， 现 在 
我 们 可 以 转向 检查 有 关 数 据 过 拟 合 的 问题 以 及 对 评价 模型 性 能 的 影响 。 
































2.2 数据 过 拟 合 的 问题 结果 的 解释 





机 融 学 习 的 一 个 常见 议题 是 数据 过 拟 合 的 问题 。 通 常 来 说 ， 过 拟 合 指 这 样 一 种 
现象 ， 训 练 模型 的 数据 的 模型 性 能 优 于 未 使 用 训练 模型 的 数据 [保留 数据 
Choldout data)、 未 来 真正 使 用 的 数据 等 ]。 过 拟 合 发 生 在 模型 正好 拟 合 了 训练 数据 
的 噪声 部 分 的 时 候 。 因 为 考虑 了 噪声 ， 它 似乎 更 准确 ， 但 一 个 数据 集 和 下 一 个 数据 
集 的 噪声 不 同 , 这 种 准确 度 不 能 运用 于 除了 训练 数据 之 外 的 任何 数据 一 一 它 没 有 一 
般 化 。 

































































过 拟 合 可 以 发 生 在 任何 时 间 ， 但 随 着 参数 对 信息 的 比例 上 升 往往 会 恶化 。 通 常 
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变化 。 
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这 个 比例 可 以 认为 是 参数 对 观测 的 比例 ， 但 并 不 总 是 如 此 《例如 ， 
一 个 1 500 万 的 样本 规模 也 仅仅 有 3 个 


500 万 人 中 发 生 一 次 的 一 个 罕见 事件 ， 
































BOE ZAR 


体验 到 这 种 事件 ， 并 且 根本 不 支持 任何 的 复杂 模型 一 一 即使 样本 规模 很 大 但 信 
低 )。 我 们 考虑 一 个 简单 但 极端 的 情况 ， 想 象 对 两 个 数据 点 拟 合 一 条 直线 。 拟 
回归 模型 看 起 来 充分 考虑 了 数据 的 所 有 











会 很 完美 , 而 且 在 这 两 个 训练 数据 中 线性 
但 是 ， 如 果 我 们 把 这 条 线 运用 到 另 1 000 个 实例 上 ， 我 们 完全 不 会 



































有 多 好 。 
在 2.1 





















































ERE 87.6%。 这 个 估计 有 多 好 ? 我 们 使 月 
测 的 精度 ， 可 以 检查 这 个 模型 一 般 化 的 程度 。 接 下 来 我 们 可 以 看 到 ， 
但 保留 数据 的 准确 度 减 少 到 了 83.6%。 









































期 符 它 拟 


节 ， 我 们 对 训练 的 RSNNS 模型 生成 了 样本 外 预测 。 我 们 知道 ， 样 本 内 
日 现在 已 经 熟悉 的 代码 检查 样本 外 预 
它 的 程度 相当 
看 起 来 损失 接近 4%， 换 铝 话 说， 使 用 




















数据 来 评价 模型 性 能 导致 了 过 度 乐观 的 准确 度 估计 ， 过 度 估计 是 4%。 


caret: 


:confusionMatrix(xtabs(-digits.train[i2, 1] + 


I(encodeClassLabels (digits.yhat4.pred) - 1))) 





Confusion Matrix and Statistics 





I (encodeClassLabels (digits.yhat4.pred) - 1) 


digits.train[i2, 1] 0 1 2 
0 429 0 13 
1 Q. 515 9 
2 4 7 427 
3 0 2 20 
4 0 6 6 
5 8 2 4 
6 2 1 8 
Ei 1 14 22 
8 4 23 19 
9 1 0 3 


Overall Statistics 


3 4 5 6 7 
16 4 9 8 
3 0 2 2 2 
17 2 3 12 10 
416 2 28 5 11 
8 392 7 T3 2 
24. T5. 335 TI 
1 1 9 460 0 
9 8 2 2 459 
Tl. 6 21 8 5 
13 36 20 1 33 


8 9 
9 5 
4 0 
12 6 
40 5 
19 37 
21 10 
3 2 
3 13 
348 12 
9 401 
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Sensitivity 


Specificity 


Pos Pred Val 
Neg Pred Val 


Prevalence 





Balanced Acc 


Sensitivity 


Specificity 


Pos Pred Val 
Neg Pred Val 


Prevalence 


Detection Ra 








Accuracy 0.836 
95$ CI (0.826, 0.847) 
No Information Rate 0.114 
P-Value [Acc > NIR] <2e-16 
Kappa 0.818 
Mcnemar's Test P-Value NA 
Statistics by Class: 
Class: 0 Class: 1 Class: 2 Class: 3 Class: 4 
0.9555 0.904 0.8041 0.8031 0.9235 
0.9851 0.995 0.9837 0.9748 0.9783 
ue 0.8632 0.959 0.8540 0.7864 0.8000 
ue 0.9956 0.988 0.9769 0.9772 0.9814 
0.0898 0.114 0.1062 0.1036 0.0952 
Detection Rate 0.0858 0.103 0.0854 0.0832 0.0784 
Detection Prevalence 0.0994 0.107 0.1000 0.1058 0.0980 
uracy 0.9703 0.949 0.8939 0.8889 0.9009 
Class: 5 Class: 6 Class: 7 Class: 8 Class: 9 
0.7579 0.8812 0.8612 0.7436 0.8167 
0.9776 0.9940 0.9834 0.9724 0.9743 
ue 0.7666 0.9446 0.8612 0.7357 0.7756 
ue 0.9766 0.9863 0.9834 0.9735 0.9799 
0.0884 0.1044 0.1066 0.0936 0.0982 
te 0.0670 0.0920 0.0918 0.0696 0.0802 
Detection Prevalence 0.0874 0.0974 0.1066 0.0946 0.1034 
uracy 0.8678 0.9376 0.9223 0.8580 0.8955 


Balanced Acc 

















本 外 度量 ， 可 以 检查 








只 是 我 们 已 经 











\ 一 /一 


运 们 


过 的 代码 的 习 


结果 显示 如 图 2-6 所 示 。 





























角度 。 代 码 没有 显示 ， 





因为 我 们 以 前 拟 合 了 几 个 复杂 程度 不 同 的 模型 , 通过 对 比 它们 的 样本 内 和 样 
过 拟 合 的 程度 或 者 过 度 乐观 的 准 
E 复 ， 但 我 们 可 以 从 本 书 提 供 的 代码 包 中 得 到 它 。 


因为 
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5: nnet 10 : nnet 40 : nnet 40: RSNNS 




















图 2-6 





2.8 用例 一 一 建立 并 运用 神经 网 络 























在 本 章 的 最 后 ， 我 们 来 讨论 神经 网 络 的 一 个 更 实际 的 用 例 。 我 们 用 Anguita, D., 
Ghio, A., Oneto, L., Parra, X., 和 Reyes-Ortiz, J. L. (2013) 提供 的 公开 数据 ， 使 用 智 
能 手机 追踪 体育 活动 。 数 据 可 以 从 以 下 地 址 下 载 : http://archive. 
ics.uci.edu/ml/ datasets/Human+Activity+ Recognition+Using+ 
Smartphones。 智 能 手机 有 加 速 计 和 陀螺 仪 ， 可 以 从 时 间 和 频率 的 561 个 特征 中 
得 到 。 












































用 户 在 行走 、 上 楼 、 下 楼 、 站 立 、 坐 下 和 躺 倒 时 ， 都 把 智能 手机 带 在 身上 。 尽 
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管 这 个 数据 来 自 于 手机 ， 类 似 的 测量 也 可 以 从 用 于 退 踪 活动 设计 的 设备 采集 ， 比 如 
各 种 健康 退 踪 手表 或 腕 带 。 所 以 如 果 我 们 希望 销售 设备 并 且 用 它们 目 动人 退 踪 佩戴 者 
从 事 了 多 少 不 同 运动 ， 这 个 数据 会 很 有 用 。 




























































































这 个 数据 已 经 标准 化 ， 范 围 从 -1 到 1。 但 是 ， 通 第 我 们 可 能 会 运行 一 些 标准 化 。 
数据 下 载 之 后 ， 我 们 可 以 解压 文件 并 且 把 它们 存放 到 工作 目录 中 ， 或 者 在 下 列 代码 
中 修改 路 径 指向 正确 的 位 置 。 我 们 可 以 读 入 训练 数据 和 测试 数据 以 及 标签 ， 同 时 整 
体 观 察 结果 的 分 布 ， 如 图 2-7 所 示 。 












































use.train.x <- read.table("UCI HAR Dataset/train/X train.txt") 
use.train.y «- read.table("UCI HAR Dataset/train/y train.txt") 
[[11] 


use.test.x «- read.table("UCI HAR Dataset/test/X test.txt") 
use.test.y «- read.table("UCI HAR Dataset/test/y test.txt") [[1]] 


use.labels <- read.table("UCI HAR Dataset/activity labels.txt") 


barplot(table(use.train.y)) 
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为 了 展示 如 何 使 用 不 同 的 方法 来 尽量 得 到 最 好 的 模型 ,我 们 将 评价 各 种 调节 参 
数 。 因 为 模型 需要 一 些 时 间 来 训练 并 且 目前 仅 显示 使 用 了 单 核 ， 我 们 可 以 使 用 并 行 
过 程 ， 同 时 使 用 不 同 的 调节 参数 来 评价 模型 。 首 先 ， 我 们 需要 加 入 一 些 额 外 的 包 到 


Y 


checkpoint.R 文件 中 并 重新 运行 。 



























































ct 


























## Chapter 2 ## 
library (parallel) 
library(foreach) 
library (doSNOW) 





现在 我 们 能 挑选 调节 参数 ， 再 建立 一 个 本 地 集群 ， 作 为 R 包 foreach 的 后 台 ， 
用 来 使 用 并 行 for MAM. 注意 ， 如 果 我 们 使 用 的 机 器 少 于 5 核 ， 需 要 
makeCluster (5) 改 为 更 小 的 数 。 





























CH 





## Choose tuning parameters 
tuning <= list ( 
size = c(40, 20, 20, 50, 50), 
maxit = c(60, 100, 100, 100, 100), 
shuffle = c(FALSE, FALSE, TRUE, FALSE, FALSE), 
params = list(FALSE, FALSE, FALSE, FALSE, c(0.1, 20, 3))) 












































## setup cluster using 5 cores 

## load packages, export required data and variables 

## and register as a backend for use with the foreach package 
cl «- makeCluster(5) 





clusterEvalQ(cl, { 
library (RSNNS) 





}) 


clusterExport (cl, 





c("tuning", "use.train.x", "use.train.y", 





"use.test.x", "use.test.y") 
) 
registerDoSNOW (cl) 
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现在 我 们 已 经 准备 好 训练 所 有 的 模型 。 下 面 的 代码 提供 了 一 个 并 行 的 for 循 
环 ， 使 用 类 似 于 我 们 已 经 见 过 的 代码 ,但 这 次 是 基于 我 们 之 前 存储 在 列表 中 的 调节 
参数 来 设置 一 些 参 数 。 





















































use.models <- foreach(i = 1:5, .combine = 'c') $dopar$ { 
if (tuning$params[[i]][1]) { 

set.seed(1234) 

list(Model = mlp( 
as.matrix(use.train.x), 
decodeClassLabels (use.train.y), 
size = tuning$size[[ill, 
learnFunc = "Rprop", 
shufflePatterns = tuningSshuffle[[i]], 


learnFuncParams = tuningSparams[[i]], 
maxit = tuning$maxit[[i]] 
)) 

} else { 


set.seed (1234) 

list (Model = mlp( 
as.matrix(use.train.x), 
decodeClassLabels(use.train.y), 
size = tuningSsize[[i]], 
learnFunc = "Rprop", 
shufflePatterns = tuningSshuffle[[i]], 


maxit = tuning$maxit[[i]] 

















因为 生成 样本 外 预测 也 会 需要 一 些 时 间 ， 我 们 也 用 并 行 来 处 理 。 首 先 ， 我 们 需 
要 把 模型 结果 输出 到 集群 上 的 每 个 worker 节点 ， 然 后 我 们 可 以 计算 这 个 预测 。 

















clusterExport(cl, "use.models") 





use.yhat <- foreach(i = 1:5, .combine = 'c') $dopar$ { 
list(list( 
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Insample = encodeClassLabels (fitted.values (use.models[[il])), 





Outsample = encodeClassLabels (predict (use.models[[i]], 
newdata = as.matrix 


(use.test.x))) 


)) 





最 后 ， 我 们 可 以 把 实际 的 和 拟 合 或 预测 的 值 并 入 一 个 数据 集 ， 在 每 个 值 上 计算 
性 能 度量 ， 再 把 所 有 的 结果 一 起 存放 进行 检查 和 比较 。 我 们 可 以 重复 与 如 下 代码 几 
乎 完全 相同 的 代码 来 生成 样本 外 的 性 能 上 度量。 这 些 代码 在 本 书 中 不 出 现 ， 但 我 们 可 
以 从 本 书 提供 的 代码 包 中 得 到 。 这 里 需要 一 些 额外 的 数据 管理 ， 因 为 模型 有 时 无 法 
预测 出 每 一 个 可 能 的 对 应 水 平 ， 但 可 以 做 出 非 对称 的 频率 交叉 表 ， 除 非 我 们 把 变量 
转化 为 因子 并 指定 水 平 。 我 们 也 会 放弃 0 值 ， 这 个 值 表示 模型 不 确定 如 何 对 一 个 观 
测 归 类 。 

































































use.insample «- cbind(Y = use.train.y, 
do.call(cbind.data.frame, lapply(use.yhat, '[[', "Insample"))) 
colnames (use.insample) <- c("Y", pasteO("Yhat", 1:5)) 


performance.insample «- do.call(rbind, lapply(1:5, function(i) { 


f <- substitute(~ Y + x, list(x = as.name(pasteO("Yhat", i)))) 





use.dat <- use.insample[use.insample[,pasteO("Yhat", i)]!= 0, ] 
use.dat$Y «- factor(use.dat$Y, levels - 1:6) 
use.dat[, pasteO("Yhat", i)]«- factor(use.dat[, paste0 ("Yhat", 
i)l, 
levels = 1:6) 
res <- caret::confusionMatrix(xtabs(f, data = use.dat)) 


cbind (Size = tuning$size[[i]], 
Maxit = tuning$maxit[[i]], 
Shuffle = tuningS$shuffle[[i]l]l, 
as.data.frame (t (resSoverall[c("AccuracyNull", "Accuracy", 
"AccuracyLower", "AccuracyUpper")]))) 


})) 
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如 果 打 印 出 样本 内 和 样本 外 的 性 能 ， 我们 可 以 看 到 每 个 模型 和 调节 参数 变化 的 
影响 。 输 出 显示 在 下 列 代码 中 。 我 们 放弃 了 第 4 列 ( 零 准确 度 ，null accuracy), 














为 它 对 于 这 种 比较 相对 次 要 。 注 意 ,样本 外 性 能 的 代码 没有 在 本 






































练习 题 留 给 大 家 【很 容易 根据 样本 内 性 能 的 代码 来 改编 )， 在 代码 包 中 有 提供 。 


performance.insample[,-4] 


中 显示 ， 但 作为 














Size Maxit Shuffle Accuracy AccuracyLower AccuracyUpper 











1 40 60 FALSE 0.99 0.98 
2 20 100 FALSE 0.99 0.99 
3 20 100 TRUE 0.99 0.99 
4 50 100 FALSE 0.99 0.99 
5 50 100 FALSE 1.00 1.00 











performance.outsample[,-4] 


03:99 
0.99 
0699 
1.00 
1.00 


Size Maxit Shuffle Accuracy AccuracyLower AccuracyUpper 








1 40 60 FALSE 0.93 0.92 
2 20 100 FALSE 0.92 0.91 
3 20 100 TRUE 0.92 0.91 
4 50 100 FALSE 0.91 0.90 
5 50 100 FALSE 0.92 0.91 














首先 ， 这 些 结果 显示 ， 我 们 能 够 根据 智能 手机 的 数据 非常 准 











0.94 
293 
2:99 
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地 对 人 们 从 事 的 





活动 分 类 。 样 本 内 数据 似乎 告诉 我 们 越 复杂 的 模型 越 好 。 但 是 ， 我 们 通过 检查 样本 
外 的 性 能 度量 ,发现 事实 上 情况 正好 相反 ! 因此 ， 样 本 内 性 能 度量 不 仅 是 模型 的 真 
























































实 样本 外 性 能 的 有 偏 估计 ， 它 们 甚至 无 法 对 模型 性 能 排序 提供 最 佳 方式 ， 从 而 用 来 
选择 性 能 最 好 的 模型 。 我 们 将 在 第 3 章 中 讨论 解决 过 拟 合 问题 的 方法 ， 同 时 准备 讨 




















论 有 多 个 隐藏 层 的 深度 神经 网 络 。 





尽管 样本 外 的 性 能 稍 差 一 些 , 模型 依然 运行 良好 , 比 仅仅 通过 




















而 且 ， 对 于 我 们 的 用 例 ， 我 们 可 以 挑选 出 最 佳 模 型 (第 1 号 )， 而 且 






































这 个 模型 会 提供 用 户 活动 的 很 好 分 类 。 

















可 能 性 分 类 更 好 。 
很 有 信心 使 用 























24 小 结 

















本 章 介绍 了 如 何 开 始 建立 并 训练 神经 网 络 模型 ， 用 来 对 包括 图 像 识 别 和 体育 活 
动 数据 在 内 的 数据 进行 分 类 。 机 器 学 习 的 一 个 陷阱 是 ， 越 复杂 的 数据 越 有 可 能 过 拟 
合 训练 数据 ， 因 此 ， 对 相同 数据 训练 模型 的 性 能 评价 会 导致 有 偏 的 、 过 度 乐观 的 模 
型 性 能 的 估计 。 事 实 上 ， 这 甚至 会 影响 到 哪个 模型 被 选 为 最 佳 。 过 拟 合 对 于 深度 家 
经 网 络 来 说 也 是 一 个 问题 ， 在 第 3 章 中 ， 我 们 将 讨论 几 种 防止 过 拟 合 的 方法 ， 称 为 
正则 化 ， 从 而 获得 模型 性 能 的 更 准确 估计 。 




































































第 3 章 
防止 过 拟 合 

















(E78 2 章 中 ， 我 们 学 习 了 如 何 训练 一 个 基本 的 神经 网 络 。 对 于 用 于 模型 训练 的 
留存 数据 进行 验证 后 ， 我 们 还 看 到 ， 进 一 步 的 训练 欠 代 或 者 更 大 的 神经 网 络 产生 的 
收益 都 在 递减 。 这 里 强调 的 是 ， 尽 管 一 个 更 复杂 的 模型 几乎 总 是 会 把 训练 它 的 数据 
拟 合 得 更 好 ， 但 它 未 必 能 把 新 数据 预测 得 更 好 。 本 章 介绍 为 了 提升 泛 化 能 力 而 用 于 
防止 数据 过 拟 合 的 不 同 的 方法 ， 称 为 无 监督 数据 上 的 正则 化 (regularization on 
unsupervised data)。 更 具体 地 说 ， 与 通常 地 按照 减少 训练 〈training) 误差 的 方式 来 
优化 参数 训练 模型 不 同 ， 正 则 化 关注 于 减少 测试 〈testing) 或 验证 (validation) iX 
差 ， 这 样 模型 在 新 数据 上 的 性 能 会 和 在 训练 数据 上 的 一 样 好 。 


































































































本 章 的 开始 提供 了 各 种 正则 化 策略 的 一 个 概念 性 的 综述 ， 以 一 个 使 用 正则 化 来 
提升 样本 外 性 能 的 用 例 结束 。 它 包含 了 下 面 的 主题 。 














e L1 罚 函 数 





e I2 ipa 





。 集成 方法 与 模型 平均 








。 用 例 一 一 使 用 丢弃 提升 样本 外 的 模型 性 能 
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3.1 L1 $08 24 




















LI Wee ae, (RAIN Ee LE PEF (Least Absolute Shrinkage and 
Selection Operator, lasso) (Hastie, T., Tibshirani, R. 和 Friedman, J. (20095), "fj 
AS AR aE PARERE E00 77 ARE ET XOU FEE] A BE TRE 
和 ， 所 以 无 论 对 于 小 的 还 是 大 的 权重 ， 惩 昼 的 程度 不 会 更 小 或 者 更 大 ， 结 果 是 小 的 
权重 会 缩减 到 零 ， 作 为 一 种 方便 的 效果 ， 除 了 防止 过 拟 合 之 外 ， 它 还 可 以 作为 一 种 
变量 选择 的 方法 。 惩 罚 的 力度 是 由 一 个 超 参数 入 所 控制 的 ， 它 乘 以 权重 绝对 值 的 和 ， 
可 以 被 预先 设 定 ， 或 者 就 像 其 他 超 参数 那样 ， 使 用 交叉 验证 或 者 一 些 类 似 的 方法 来 
优化 。 
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就 数学 上 来 讲 ， 从 普通 最 小 二 乘 (Ordinary Least Squares, OLS) 回归 开始 介 
绍 要 更 容易 一 些 。 在 回归 当中 ， 我 们 使 用 最 小 二 乘 误差 准则 来 估计 一 组 系数 或 模 
型 权重 ， 其 中 权重 /系数 向 量 B 通过 最 小 化 7- XB) T (Y— XB) 估计 出 来 , 了 是 
结果 或 因 变 量 , 是 一 个 列 的 设计 矩阵， 列 对 应 预测 变量 , 一 个 常数 列 对 应 截 距 (有 
时 也 叫 作 偏 移 )。 观 测 的 结果 和 预测 值 ( 设 计 和 矩阵 乘 以 系数 回 量 的 积 ) 之 间 相 差 一 
个 误差 或 者 残 差 癌 量 。 在 这 个 框架 中 ，L1 罚 函 数 可 以 认为 是 一 个 有 约束 的 估计 变 
量 ， 其 中 权重 向 量 的 估计 满足 绝对 值 权重 的 和 小 于 等 于 某 个 《用 户 指定 的 ) BEA 
的 约束 。 


























































































































通常 ， 截 距 或 偏 移 项 会 从 这 个 约束 中 排除 (例如 ， 通 过 预先 中 心 化 所 有 数据 并 
且 去 掉 截 距 ， 或 者 通过 有 选择 地 运用 约束 来 实现 这 一 点 )。 另 一 方面 我 们 可 以 将 工 1 
罚 函 数 看 作 函 数 最 小 化 的 一 种 修正 , 从 CY XB)" (Y XB) 8| CY — XB) ! CY — XB) 
-AjB|, PIB 代表 权重 绝对 值 的 和 。 如 果 4=0， 那 么 LI 罚 函 数 缩小 到 规则 的 
OLS 估计 子 。 用 户 可 以 选择 1?， 或 者 更 通俗 地 将 它 作 为 一 个 超 参数 ， 通 过 评价 4 可 能 
取 值 的 一 个 范围 (比如 ， 通 过 交叉 验证 ) 进行 优化 。 尽 管 超出 了 本 书 范围 ，L1 fü 
函数 还 可 以 通过 贝 叶 斯 观点 来 看 ， 最 终 的 后 验 估计 是 来 自 数据 和 先 验 估 计 的 函数 ， 
可 以 通过 设 定 一 个 有 不 同 程度 确定 性 的 先 验 来 实现 产生 于 惩罚 项 的 缩减 。 从 技术 上 

















































































































































































































来 说 ， 参 数 可 以 向 任意 的 值 收缩 ， 但 
即使 对 于 L1 如 函数 为 什么 以 及 如 何 起 作用 背后 的 理论 还 不 是 很 清楚 ， 这 里 

















是 它们 几乎 总 是 向 零 收缩 。 



































些 实践 的 含义 是 直接 的 。 首 先 ， 很 明显 第 如 的 影响 依赖 于 权重 的 大 小 ， 而 权重 的 大 











小 依赖 于 数据 的 规模 。 





(2009))。 如 果 我 们 只 考虑 那些 LI1 昼 函 数 留 下 的 非 零 权重 的 变量 ， 它 本 质 上 具有 特 






































因此 ， 我 们 通常 先 把 数据 标准 化 为 带 有 单位 方差 (或 者 起 码 
是 每 个 变量 的 方差 相等 ) 的 形式 。L1 罚 函 数 有 一 种 趋势 ， 把 小 的 权重 向 零 的 方向 
缩减 〈 要 解释 为 什么 会 发 生 这 种 情况 ， 人 参见 Hastie, T., Tibshirani, R. 和 Friedman, J., 









































征 选择 的 功能 ， 这 是 经 常 使 用 LI 加 函数 的 吃 一 个 名 称 





算 子 ， 或 者 lasso 的 主 
系数 缩减 到 零 的 趋势 ， 



































最 小 绝对 值 收缩 和 选择 





要 动机 。 即 使 在 严格 的 特征 选择 使 用 之 外 ，L1 加 函数 把 小 的 
仍 能 方便 地 用 来 简化 模型 结果 的 解释 。 











把 L1 罚 函 数 作为 约束 优化 时 ， 我 们 更 容易 看 出 它 如 何 有 效 地 限制 了 模型 的 复 





杂 性 。 即 使 包括 了 许多 预测 变量 ， 权 重 绝对 值 的 和 也 不 能 超过 定义 的 阔 值 。 这 样 做 





















































的 一 个 结果 是 ， 使 用 L 罚 函 数 ， 只 要 有 足够 强 的 惩罚 项 ， 真 的 有 可 能 包括 比 样 例 











或 观测 还 要 多 的 预测 变量 。(〈 根 据 权 习 


束 变 成 唯一 的 估计 。 
AT L1 罚 函 数 的 
























































E 个 数 ) 看 起 来 过 参数 化 的 模型 ， 通 过 这 个 约 





这 些 基础 , 现在 我 们 主要 考虑 L1 罚 函 数 能 怎样 运用 到 神经 网 
络 上 ， 它 是 我 们 在 本 书 中 关心 的 主要 用 例 。 我 们 用 X 表示 输入 ,YY 表示 输出 或 者 因 
变量 ，B 是 参数 ，F 是 为 了 求 出 B 而 要 优化 的 目标 函数 。 特 别 地 有 : F(BDCY). Æ 


























神经 网 络 中 ， 参 数 可 以 是 偏差 或 者 偏 移 (本质 上 是 来 日 



































回归 的 截 距 ) 以 及 权重 。L1 








罚 函 数 把 目标 冰 数 修 ] 





FE 为 其 中 w 仅 代 表 权 重 〈 就 是 说 ， 

















偏 移 通常 是 被 忽略 的 )。 考 


虑 梯度 ， 我 们 可 以 将 这 个 增加 的 惩罚 项 表示 为 FBX, +All ERWE A 
管 权重 的 数量 级 如 何 ， 罚 参数 是 一 个 常数 。 与 我 们 接 下 来 将 要 讨论 的 L2 fy RAAH 
比 ， 这 是 一 个 重要 的 区 别 。 进 一 步 说 ， 这 是 Ll 罚 函 数 往往 会 导致 黎 臣 结果 《〈 即 更 























多 的 零 权重 ) 的 方法 的 一 部 分 。 因 为 小 的 和 更 大 的 权 台 














度 每 次 更 新 ， 权 重 会 向 零 的 方向 移动 。 





我 们 已 经 讨论 了 ，4 作 为 一 个 币 数 控制 了 惩 如 或 者 正则 化 的 程度 。 然 而 ， 设 置 


不 同 的 4 值 是 可 能 的 。 
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会 导致 相等 的 惩罚 ， 所 以 梯 























虽然 这 通常 不 在 单 层 神经 网 络 中 实现 (上 典型 的 是 寻求 有 差别 




















的 正则 化 的 具体 权重 )， 但 在 深度 学 习 网 络 中 会 变 得 更 有 用 ， 




















度 可 以 运用 到 不 同 的 层 。 考 虑 这 种 有 差别 的 正则 化 的 一 种 原因 











允许 更 多 的 参数 个 数 〈 在 一 个 特定 的 层 中 包括 更 多 的 神经 元 ) 





则 化 在 某 种 程度 上 抵消 了 这 一 点 。 尽 管 如 此 ， 既 然 这 些 参数 通 
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其 中 正则 化 的 变化 程 
是 ， 有 时 候 我 们 想 要 
但 之 后 通过 更 强 的 正 

或 


















































常 是 通过 交叉 验证 








其 他 的 经 验 技术 优化 的 ， 为 了 允许 它们 对 深度 学 习 网 络 的 每 一 层 都 变化 ， 要 有 相当 











大 的 计算 上 的 需求 ， 因 为 可 能 的 全 
































的 正则 化 形式 一 一 L2 如 函数 。 





我 们 可 以 通过 一 个 模拟 的 线性 


— 




















并 使 用 一 个 可 重复 的 版 本 。 





library (glmnet) 





个 数 是 指数 增长 的 。 所 以 最 
上 使 用 单个 的 值 。 在 R 中 探索 LI 神 函 数 的 实践 之 后 ， 我 们 会 转 而 考虑 男 一 种 常见 





常见 的 是 在 整个 模型 


器 归 问题 来 看 L1 罚 函 数 是 如 何 工作 的 。 首 先 ， 
和 以 前 一 样 ， 我 们 把 R 包 glmnet 添加 到 checkpoint.R 文件 中 ， 用 来 载 入 相关 的 库 


接 下 来 我 们 可 以 模拟 数据 ， 使 用 一 组 有 针对 性 的 反常 相关 的 预测 变量 的 集合 。 

















set.seed(1234) 


X <- mvrnorm(n = 200, mu = c(0, 0, 0, 0, 0), 
Sigma = matrix(c( 
L4 49999, .99, 4299,. .10; 
9999, là 399%. .99, .10, 
£995 52:997 de 2995 10, 
:995/.99, £995. ly. «L0, 
~L0;- .10,  .10, T0, 1 
), ncol = 5)) 
y «- rnorm(200, 3 + X $*$ matrix(c(1, 1, 1, 


接 下 来 ， 我 们 能 对 前 100 个 样 例 拟 合 线性 回归 模型 并 且 








使 用 lasso。 为 了 使 用 


lasso， 我 们 采用 来 自 glmnet 包 的 g1mnet () 函数 。 这 个 函数 实际 上 能 拟 合 Ll TER 
数 或 〈 后 续 我 们 会 在 3.2 市 讨论 ) L2 罚 函 数 ， 取 哪 一 个 函数 是 由 参数 alpha KA 














52 第 3 章 防止 过 拟 合 











定 的 。 当 alpha-1 时 ， 它 是 Ll WAZ CHE lasso); 当 alpha=2 时 ， 它 是 1L2 























昼 函 数 《〈 也 就 是 岭 回 归 )。 而 且 ， 因 为 并 不 知道 应 该 选取 的 lambda 的 值 ， 我 们 能 评 





























价 一 系列 的 选择 并 且 使 用 交叉 验证 自动 调 出 这 个 超 参数 ， 这 可 以 用 cv.glmnet () 








PR BOR KI. 


m.ols <- lm(y[1:100] ~ X[1:100, ]) 


m.lasso.cv <- cv.glmnet(X[1:100, ], y[1:100], alpha = 1) 


我 们 能 画 出 lasso 对 象 


plot (m.lasso.cv) 


， 看 看 各 个 lambda 值 的 均 方 误差 。 
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均 方 误 差 








e d e000000to0oo0o0ro0srtoorsorrornrrr 


4444444 4 4 4 4 32 








-3 -2 -1 0 1 


log(Lambda) 








从 图 3-1 我 们 能 看 到 ， 








图 3-1 








当 惩 罚 变 得 太 大 时 ， 交 叉 验 证 模型 的 误差 增加 。 事 实 上 ， 


























lasso 看 起 来 在 非常 低 的 lambda 值 上 表现 得 很 好 , 或 许 表 明了 lasso 对 于 提高 样本 外 























的 性 能 / 泛 化 能 力 并 不 是 逢 














有 帮助 。 为 了 完成 这 个 例子 , 我 们 将 会 继续 , 但 在 实际 的 

















使 用 中 这 可 能 给 了 我 们 一 个 暂停 的 机 会 来 思考 lasso 是 否 真 的 有 帮助 。 





最 后 ， 我 们 用 OLS 系数 和 这 些 来 自 lasso 的 系数 作 比较 。 


cbind ( 

OLS = coef(m.ols), 

Lasso = coef(m.lasso.cv) [,1]) 

OLS Lasso 

(Intercept) 2.958 2.99 
X[1:100, ]1 -0.082 1.41 
X[li100, ]2- 22239 0.71 
X[1:100, ]3 0.602 0.51 
X[LL00;.]4- 1:235 1.17 
X[1:100, 15 -0.041 0.00 


我 们 注意 到 OLS 系数 更 杂乱 ， 而 在 lasso Pi 预测 变量 5 gut 
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EU 0. S] 


回忆 模拟 的 数据 ， 真 实 的 系数 是 3. 1. 1, 1. 1. 0. OLS 估计 对 于 第 一 个 预测 变 




















量 的 值 是 太 低 了 ， E MZ, lasso 有 更 准 














3.2 L2 fü Zu 


L2 罚 函 数 ， 也 叫 作 岭 回 
基于 权重 绝对 值 的 和 之 外 ， 在 许多 方面 是 和 LI 罚 函 数 很 相似 的 。 
惩罚 的 效果 ， 更 大 的 〈 正 或 者 负 ) 权重 导致 了 更 大 的 惩罚 。 
你 为 权重 衰减 。 如 果 我 们 检查 正则 











提供 不 同 





背景 下 ， 这 有 时 被 条 


一 个 惩罚 id: 





M Be + 


(Y—XB)'(Y—XB)(B IE g(Y-XB) (Y-XB)-0.5AB! B. FU L1 罚 函 数 一 样 ，L2 罚 函数 允许 
解决 不 同 的 不 确定 的 问题 , 特别 是 当 预 测 变量 的 协 方差 矩阵 奇异 的 时 候 。 这 是 因 
































确 的 值 。 


IH Cridge regression)， 除 了 惩罚 是 基于 权重 平方 而 不 是 


















































这 样 在 每 次 更 新 中 ， 对 于 权重 有 一 个 增加 的 惩 姑 。 至 于 LP WRZ, 





























生 回 归 问 题 的 观点 ，L2 罚 函 数 是 对 


管 能 够 包含 侦 差 或 者 俩 移 ， 通 常 也 是 被 排除 在 外 的 。 


目标 函数 最 小 化 的 修正 ， 























L2 昼 冰 数 的 效果 在 本 质 上 增加 了 每 个 变量 的 方差 





阵 形 式 是 














这 样 它 就 具有 了 
在 神经 网 络 的 
目标 函数 的 梯度 ， 会 发 现存 在 
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Ex 




















y 
AJ , 


> TE OLS 中 ，B fiU fS SE 
EWA OLS 目标 函数 ， 得 到 





in(X'X)X'y, AR fü Z d Br E zs AY I 








inv(XXX+ ADXy， 其 中 是 单位 矩阵 。 








因为 站 了 是 设计 矩阵 的 方差 - 协 方差 矩阵 ， 增 加 ?21 会 有 增加 对 角 元 素 的 效果 ， 
但 非 对 角 元 素 不 变 。 这 就 是 说 ， 方 差 增 加 而 协 方差 不 变 ， 导 致 相关 系数 〈 标 准 化 的 
协 方差 ) 缩减 到 零 。 足够 强 的 惩罚 可 以 导致 不 同 的 奇异 协 方 差 矩阵 成 为 唯一 的 估计 ， 
而 且 在 有 强 相 关 预 测 变量 的 时 候 ， 这 也 有 助 于 稳定 估计 。 






















































































3.2.1 工 2 罚 函 数 实战 


来 看 L2 罚 函 数 是 如 何 工 作 的 , 我 们 可 以 采用 用 在 Ll 罚 函 数 中 的 同一 个 模拟 的 
线性 回归 问题 。 为 了 拟 合 岭 回 归 模 型 ， 我 们 使 用 来 自 glmnet 包 的 glmnet () 函数 。 
和 之 前 所 提 到 的 一 样 ， 这 个 函数 实际 上 可 以 拟 合 LI1 罚 函 数 或 L2 罚 函 数 ， 取 哪 一 个 
是 由 参数 alpha 决定 的 。 当 alpha-1 Hj, EWS LI 罚 函 数 〈 也 就 是 lasso); 当 
alpha=0 时 ， 它 拟 合 岭 回 归 。 这 一 次 我 们 选择 alpha=0。 再 一 次 ， 我 们 评价 一 系 
列 的 选择 并 且 使 用 交叉 验证 自动 地 调 出 这 个 超 参数 ， 这 通过 cv .glmnet () 函数 来 
实现 。 




































































m.ridge.cv <- cv.gimnet(X[1:100, ], y[1:100], alpha = 0) 














我 们 画 出 岭 回归 对 象 ， 看 看 各 个 lambda 值 的 均 方 误差 。 

















plot (m.ridge.cv) 


尽管 这 个 形状 和 lasso 不 同 ， 如 图 3-2 中 所 示 误 差 对 更 高 的 lambda 值 表 现 为 
渐进 的 ， 依 然 很 清楚 的 是 ， 当 惩罚 太 高 的 时 候 ， 交 叉 验证 模型 误差 增加 。 和 lasso 
一 样 ， 岭 回归 往往 在 非常 小 的 lambda 值 上 表现 很 好 ， 这 可 能 表明 lasso 对 于 提高 
样本 外 性 能 / 泛 化 能 力 并 不 是 很 有 帮助 。 








































































































最 后 ， 我 们 用 OLS 系数 与 这 些 来 自 Tasso 和 岭 回 归 的 系数 作 比 较 。 


cbind( 


OLS = coef(m.ols), 
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Lasso = coef(m.lasso.cv)[,1], 


Ridge = coef (m.ridge.cv)[,1]) 


ntercept) 
1:100, ]1 
1:100, ]2 
1:100, T3 
1:100, ]4 
1 


( 
X 
X 
X 
X 
X[1:100, ]5 


I 
[ 
[ 
[ 
[ 
[ 


OLS 
2,958 
-0.082 
2.239 
0.602 
1.235 
-0.041 


Ridge 
.002 
.958 
.964 
.924 
.949 
.011 


CO O O GOG 0 0 





15 


10 


均 方 误差 





§5555555555555 55 5 








log(Lambda) 




















图 3-2 


管 岭 回归 没有 把 第 五 个 预测 子 的 系数 缩减 到 精确 的 零 , 还 是 要 比 OLS 的 系数 
日 其 余 的 参数 都 有 轻微 缩减 ， 但 是 和 它们 的 真实 值 3、1、1、1、1、0 非常 





3.2.2 ”权重 衰减 (神经 网 络 中 的 L2 TRAE ) 








在 了 解 权重 衰减 之 前 ,我 们 实际 上 已 经 在 第 2 章 中 看 到 了 实战 中 的 正则 化 。 我 
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们 使 用 caret 包 和 nnet 包 训 练 的 神经 网 络 使 用 了 0.01 的 权重 衰减 。 为 了 探索 权重 衰 
减 的 使 用 ， 我 们 可 以 通过 变化 它 的 值 以 及 使 用 交叉 验证 来 调整 取 值 。 首 先 ， 我 们 和 
以 前 一 样 载 入 数据 。 然后, 我们 使 用 一 个 本 地 的 集群 ,以 并 行 的 方式 运行 交叉 验证 。 
注意 ， 和 以 前 一 样 不 是 直接 载 入 包 ， 我 们 需要 用 source () 调用 checkpoint.R 
文件 ， 这 样 才能 保证 集群 中 的 每 一 个 worker 节点 使 用 相同 的 R 包 版 本 。 





map 

























































































## same data as from previous chapter 
digits.train <- read.csv("train.csv") 
## convert to factor 


digits.trainSlabel <- factor (digits.train$label, levels = 0:9) 





i <- 1:5000 
digits.X <- digits.train[i, -1] 
digits.y <- digits.train[i, 1] 


## try various weight decays and number of iterations 
## register backend so that different decays can be 
## estimated in parallel 

cl <- makeCluster(4) 





clusterEvalQ(cl, { 





source ("checkpoint.R") 
}) 
registerDoSNOW (cl) 

















接 下 来 ,我 们 在 数字 分 类 问题 上 建立 一 个 神经 网 络 ， 权 重 豪 减 在 O CAT KE Ti) 
和 0.10 之 间 变 化 。 我 们 分 别 循环 欠 代 次 数 为 100 和 150 的 两 个 集合 。 注意 这 个 代码 
是 计算 密集 型 的 而 且 依 赖 于 硬件 ， 可 能 要 花 一 些 时 间 来 运行 。 





set.seed(1234) 
digits.decay.ml <- lapply(c(100, 150), function(its) { 
train(digits.X, digits.y, 
method = "nnet", 
tuneGrid = expand.grid ( 


.Size = c(10), 


32 L2 罚 函 数 57 


.decay c(0, :1)), 


trControl = trainControl(method = "cv", number = 5, 


repeats -1), 
MaxNWts - 10000, 
maxit = its) 


}) 


检查 这 个 结果 ， 我 们 可 以 看 到 ， 当 和 迭代 限制 在 100 次 的 时 候 ， 基 于 交叉 验证 的 
结果 , 非 正 则 化 的 模型 (准确 度 =0.63) 比 正则 化 的 模型 (准确 度 =0.6) 表现 要 好 ( 尽 
在 这 个 数据 上 ， 两 者 做 的 都 不 好 )。 














T 




















digits.decay.m1[[1]] 
Neural Network 


5000 samples 
784 predictor 
10 classes: Koty as a VDE "S VAN r5. Wee DEL "gt ! 9' 


No pre-processing 

Resampling: Cross-Validated (5 fold) 

Summary of sample sizes: 4000, 3999, 4000, 4001, 4000 
Resampling results across tuning parameters: 


decay Accuracy Kappa Accuracy SD Kappa SD 
0.0 0.63 0:459 0.052 0.058 
0.1 0.60 0.56 0.061 0.068 


Tuning parameter 'size' was held constant at a value of 10 


Accuracy was used to select the optimal model using the 





largest value. 





The final values used for the model were size = 10 and decay = 0. 


接 下 来 ， 我 们 可 以 检查 150 次 迭代 的 模型 ， 看 看 是 正则 化 的 模型 还 是 非 正则 化 
的 模型 表现 更 好 。 
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digits.decay.m1[[2]] 
Neural Network 


5000 samples 
784 predictor 
10 classes: "gt, "T, "2, 130) tar, T5, ve, UP, ! gt, ! 9' 


No pre-processing 
Resampling: Cross-Validated (5 fold) 
Summary of sample sizes: 4002, 4000, 4000, 3999, 3999 


Resampling results across tuning parameters: 


decay Accuracy Kappa Accuracy SD Kappa SD 
0.0 0.65 0.61 0.049 0.055 
0.1 0.66 0.62 0.071 0.078 


Tuning parameter 'size' was held constant at a value of 10 
Accuracy was used to select the optimal model using the 


largest value. 





The final values used for the model were size = 10 and decay = 0.1. 


总 的 来 说 , 不 管 是 不 是 正则 化 的 , EE XR TNT BERI DE S IP STR UL POL BEE 
然而 ， 比 较 150 次 迭代 的 两 个 模型 ， 正 则 化 的 模型 《准确 度 =0.66) 比 非 正则 化 的 模 
型 更 好 ， 尽 管 这 里 的 差距 相对 小 一 些 。 


























这 些 结果 强调 的 重点 是 ， 正 则 化 通常 对 更 复杂 的 、 有 更 大 的 灵活 性 拟 合 〈 以 及 
过 拟 合 ) 数据 的 模型 最 有 用 ， 同 时 《在 那些 对 于 数据 合适 的 或 者 过 于 简单 的 模型 ) 
正则 化 实际 上 可 能 降低 了 性 能 。 接 下 来 ， 我 们 将 讨论 集成 以 及 模型 平均 技术 ， 这 是 
我 们 将 在 本 书 中 强调 的 最 后 一 种 正则 化 的 形式 。 
























































3.3 ”集成 和 模型 平均 


模型 平均 或 


另 一 种 正则 化 的 方法 包括 创建 模型 的 集成 并 且 









































3.3 


它们 组 合 起 来 ， 例 如， 利用 
者 其 他 把 个 别 模型 的 结果 组 合 起 来 的 算法 。 如 同 之 前 许多 正则 化 的 方 
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法 ， 模 型 平均 是 一 种 相当 简单 的 概念 。 如 果 我 们 有 不 同 的 模型 ， 每 一 个 生成 一 组 


预测 ， 每 个 模型 也 许 会 在 预测 中 造成 误差 。 一 个 模型 可 能 











巴 某 个 值 预测 得 太 高 





为 一 个 可 能 会 把 它 预 测 得 太 低 ， 这 样 平均 起 来 ,一些 误差 相互 抵消 ,产生 比 通过 
其 他 方法 更 为 准确 的 预测 。 





况 中 











为 了 更 好 地 到 










































































E 解 模型 平均 ， 我 们 来 假设 两 个 不 同 但 是 极端 的 例子 。 在 第 一 种 情 
， 我 们 假设 被 平均 的 模型 是 相同 的 ， 或 者 至 少 生 成 相同 的 预测 (就 是 说 ， 是 完 
美 相 关 的 )。 如 果 是 那样 ， 平 均 不 会 产生 什么 好 处 ， 但 也 没什么 坏处 。 在 第 二 种 情 


























况 中 ， 每 个 被 平均 的 模型 相互 独立 且 同 样 好 地 被 执行 ,而且 它 们 的 预测 是 不 相关 的 
(或 者 有 非常 低 的 相关 性 )。 那 么 平均 会 精确 得 多 得 多 ， 因 为 它 获得 了 每 一 个 模型 的 
力量 。 下 面 的 代码 给 出 了 一 个 使 用 模拟 数据 的 例子 。 在 这 个 小 例子 中 ， 我 们 只 有 三 
个 模型 ， 但 是 它们 说 明了 重点 。 

## simulated data 


set.seed(1234) 
d <- data.frame( 


x — rnorm(400)) 


d$y «- with(d, rnorm(400, 2 + ifelse(x < 0, x + x^2, x + x^2.5), 


d.train «- d[1:200, ] 
d.test «- d[201:400, ] 


## 
mi 
m2 
m3 


three different models 

<- lm(y ~ x, data = d.train) 

<- lm(y ~ I(x^2), data = d.train) 
<- lm(y ~ pmax (x, 0) + pmin(x, 0), 


data 


= d.train) 
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## In sample R2 


cbind( 
M1 = summary (ml)$r.squared, 
M2 = summary (m2)$r.squared, 
M3 = summary (m3)$r.squared) 


M1 M2 M3 
[L;] 0.335 05560) 10h06 











我 们 能 看 到 每 个 模型 的 预测 值 ， 至 少 在 训练 数据 中 变化 是 相当 大 的 。 在 评价 训 
练 数据 中 ， 拟 合 值 之 间 的 相关 性 也 能 有 助 于 识别 在 模型 预测 之 间 有 着 多 大 的 重 登 。 














` 















































## correlations in the training data 
cor (cbind ( 

M1 = fitted(m1), 

M2 fitted(m2), 

M3 fitted (m3))) 


M1 M2 M3 
M1 1.00 0.11 0.65 
M2 0.11 1.00 0.78 
M3 0.65 0.78 1.00 























接 下 来 ， 我 们 对 测试 数据 生成 预测 值 、 预 测 值 的 平均 值 ， 而 且 再 次 求 预测 以 及 
测试 数据 中 真实 情况 的 相关 系数 。 























## generate predictions and the average prediction 
d.test$yhatl <- predict(ml, newdata = d.test) 





d.test$yhat2 «- predict(m2, newdata - d.test) 
d.test$yhat3 «- predict(m3, newdata - d.test) 
d.test$yhatavg <- rowMeans (d.test[, pasteO("yhat", 1:3)]) 








## correlation in the testing data 
cor (d.test) 


x y yhatl yhat2 
x 1.000 0.44 1.000 -0.098 
y 0.442 1.00 0.442 0.753 
yhatl 1.000 0.44 1.000 -0.098 
yhat2 -0.098 0.75 -0.098 1.000 
yhat3 0.596 0.87 0.596 0.687 
yhatavg 0.552 0.91 0:59:52 0.765 














yhat3 


0 


O e O O O 


. 60 
.87 
.60 
.69 
.00 
.98 


在 这 个 结果 中 我 们 能 看 到 ， 三 个 模型 预测 的 平均 确实 上 
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yhatavg 


0. 
.91 


=e O O O O 


55 


55 
76 
98 


.00 


任何 一 个 模型 的 个 别 表 








现 都 要 好 。 然 而 ， 这 只 是 在 每 个 横 型 的 表现 差不多 好 的 时 候 ， 才 可 以 保证 是 真 的 。 
例如 ,我 们 假设 一 个 病态 的 情况 ， 其 中 一 个 模型 完美 地 预测 了 结果 而 为 一 个 的 预测 











是 和 结果 完全 不 相关 的 随机 噪声 。 这 样 





好 的 模型 表现 更 坏 。 一 般 来 说 ,检查 被 平均 的 模型 至 少 在 训练 数据 中 有 相似 的 性 能 
是 有 好 处 的 ， 理 想 的 是 在 模型 的 预测 之 行 























的 平均 。 


























司 有 较 低 的 相关 性 ， 因 











的 话 ， 两 个 模型 的 平均 肯定 会 产生 比 只 使 用 






































为 这 会 产生 最 佳 运行 


集成 方法 是 一 种 运用 了 模型 平均 的 方法 。 一 个 第 见 的 技术 被 称 为 自助 聚集 











(bootstrap aggregating)， 其 中 数据 采用 蔡 换 抽样 来 形成 相等 














每 一 个 数据 上 训练 ， 然 后 将 这 些 结果 


F 均 。 
集中 , 茶 些 样 例会 出 现 多 次 或 者 根本 不 会 出 现 。 因 
如 果 茶 个 特殊 的 变化 对 少数 样 例 或 数据 的 一 个 罕见 巧合 是 








岗 模 的 数据 集 ， 模 型 在 
因为 数据 是 用 准 换 抽样 的 ， 在 每 个 数据 











为 模型 是 











在 每 个 数据 集 上 训练 的 ， 
独特 的 , 它 可 能 只 在 一 个 








模型 中 出 现 。 当 预测 在 由 每 个 重 抽样 的 数据 集 所 训练 的 许多 模型 上 平均 时 ， 这 种 过 




















拟 合 往往 会 减少 。 我 们 称 这 个 过 程 为 装 袋 (bagging) CA HIR 




















R) 在 某 些 


背景 下 ( 例 


如 决策 树 )， 会 采用 进一步 的 步骤 来 减少 不 同 模型 之 间 的 相关 性 。 例 如 ， 随 机 森林 
使 用 了 目 助 聚集 的 决策 树 ， 但 也 在 每 个 分 划 的 节点 上 随机 地 选择 了 一 个 特征 子 集 ， 











目的 是 减少 模型 与 模型 的 相关 性 并 由 此 提高 整体 的 平均 必 


























节 中 要 讨论 的 丢弃 过 程 , 对 许多 子 集 模型 训练 的 方式 提供 








装 袋 和 模型 平均 在 深度 神经 网 络 中 并 不 党 
高 ， 所 以 就 时 间 和 计算 资源 来 说 ， 多 次 














用 ， 因 为 j 





Lob 
E HE o 


| 练 每 个 模型 的 成 本 会 相当 


E 复 这 个 过 程 会 变 得 相当 昂贵 。 然而 , 在 3.4 




















了 相似 的 功能 。 尽 管 如 此 ， 
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在 深度 学 习 的 背景 下 使 用 模型 平均 还 是 可 能 的 ,即使 它 上 只 能 用 在 少数 而 非 数 百 个 模 





型 上 ， 就 像 在 随机 森林 或 果 些 其 他 方法 中 所 常见 的 那 











". 








3.4 ”用 例 一 一 使 用 丢弃 提升 样本 外 模型 性 能 





EXI 


























| 的 探索 , 可 以 参见 














丢弃 是 一 种 相对 较 新 的 正则 化 方法 ， 对 于 大 型 和 复杂 的 深度 入 


F 在 深度 神经 网 络 中 丢弃 的 更 详 











经 网 络 特别 有 价 
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接 的 。 在 模型 训练 
发 的 和 到 达 它 们 的 
一 步 会 发 生 什么 的 











的 过 程 中 ， 单 元 例如 输入 、 隐 藏 4 









































的 。 显 示 为 灰色 和 虚线 的 外 
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考虑 丢弃 的 一 种 方法 是 它 会 迫使 模型 对 了 
括 在 完整 的 模型 中 ， 但 在 训练 期 间 它 们 并 不 总 是 同时 存在 的 ， 所 以 某 些 和 
要 操作 的 比 它们 不 得 已 的 其 他 方式 要 更 














联系 一 起 按照 概率 被 天 六 
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经 元 等 ) 连同 所 有 从 它们 出 
3-3 是 一 个 模型 训练 中 每 
例子 ， 模 型 中 的 隐藏 神经 元 和 它们 的 连接 是 以 1/3 的 概率 来 丢弃 
经 元 和 连接 就 是 那些 被 丢弃 的 。 习 
E 整 个 训练 过 程 中 被 丢弃 ， 而 在 某 一 步骤 /更 新 中 被 丢弃 。 
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主意 的 是 ， 输 入 也 能 和 隐藏 

















神经 元 一 样 被 丢弃 ， 但 通常 不 会 这 样 做 ， 或 者 只 做 到 较 少 的 程度 。 


观察 丢弃 的 另 一 利 
个 权重 , 但 























少 了 模型 的 复杂 性 ， 因 














方式 是 ， 如 果 我 们 有 一 个 大 型 的 模型 ， 隐 藏书 











有 50% 会 在 训练 期 间 丢 弃 ， 
用 到 ,我 们 已 经 有 效 地 把 模型 的 复杂 性 
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此 会 有 助 


T Vil 


的 平均 个 数 将 会 减 半 。 这 减 


上 数据 的 过 拟 合 。 根 据 这 个 特征 ， 如 果 丢 弃 的 








比例 是 p，Srivastava, N., Hinton, G., Krizhevsky,A., Sutskever, I. 4l Salakhutdinov, R. 
(2014) 推 荐 按 比例 Lp 放大 模型 的 复杂 性 ， 以 便 用 一 个 大 致 相同 复杂 的 模型 来 结束 。 


尽管 神经 元 可 以 在 训练 期 间 随机 地 丢弃 ， 但 
元 的 模型 计算 许多 预测 ， 然 后 








反 ， 已 经 有 建议 〈 而 j 
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平均 来 自 每 个 模型 的 预测 ， 这 刀 
日 似乎 表现 优异 ) 说 我 们 应 该 使 















































在 测试 期 间 ， 基 于 丢弃 了 一 些 神经 
E 计 算 上 不 方便 。 相 
一 个 近似 的 平均 ， 基 于 来 自 
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单个 神经 网 络 的 权重 的 归 一 化 ， 而 这 个 网 络 是 基于 每 个 权重 被 包括 进来 的 概率 的 
CHI 1-p， 尽 管 这 可 以 通过 经 验 而 非 理论 来 完成 )。 



































Inputs Hidden 1 Hidden 2 Outputs 





Inputs Hidden 1 Hidden 2 Outputs 


Step 1 


Inputs Hidden 1 Hidden 2 Outputs 


Step 2 














图 3-3 
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除了 良好 的 表现 之 外 ， 这 种 近似 的 权重 校正 是 一 种 相当 琐碎 的 计算 。 因 此 ， 
弃 的 首要 计算 成 本 来 自 于 这 样 一 个 事实 , 我 们 必须 使 用 一 个 有 着 更 多 神经 元 和 权重 
的 模型 , 因为 在 每 次 训练 更 新 过 程 中 会 丢弃 许多 的 神经 元 和 权重 (对 于 隐藏 神经 元 ， 
推荐 的 值 大 约 是 50%). 










































































尽管 丢弃 在 计算 上 是 相当 廉价 的 ， 但 它 更 慢 ， 因 为 丢弃 需要 一 个 更 大 的 模型 ， 
这 种 方法 的 一 个 潜在 缺点 就 是 ， 用 更 少 的 神经 元 和 更 快 的 学 习 率 ， 茶 些 权重 会 变 得 
相当 大 。 幸 运 的 是 , 我 们 有 可 能 将 丢弃 和 其 他 形式 的 正则 化 比如 Ll FI L2 如 函数 一 
起 使 用 ， 放 在 一 起 考虑 ， 结 果 是 一 个 更 大 的 模型 ， 它 能 快速 地 (以 一 个 更 快 的 学 习 
K) 控 索 更 广阔 的 参数 空间 ， 但 为 了 使 权重 得 到 控制 ， 它 是 通过 丢弃 和 惩 避 来 正则 
化 的 。 











































































































为 了 显示 丢弃 在 神经 网 络 中 的 使 用 ， 我 们 返回 到 之 前 处 理 过 的 美国 国家 标准 与 
技术 研究 所 (Modified National Institute of Standards and Technology , MNIST) 数 
据 集 (我 们 在 第 2 章 中 从 kaggle 下 载 过 这 个 数据 集 )。 我 们 将 使 用 来 自 deepnet 包 的 
nn. train () 函数 ， 因 为 它 允 许 丢 弃 。 和 第 2 章 一 样 ， 我 们 并 行 地 运行 四 个 模型 来 
减少 它 所 用 的 时 间 。 特 别 地 ， 我 们 比较 这 四 个 模型 ， 两 个 采用 丢弃 正则 化 、 另 两 个 
不 用 ， 而 且 要 么 是 40 个 要 么 是 80 个 神经 元 。 对 于 丢弃 ， 我 们 分 别 为 隐藏 的 和 可 见 
的 单位 指定 丢弃 的 比例 。 基 于 经 验 法 则 ， 大 约 50% 的 隐藏 单位 《和 大 约 80% 的 观察 
单位 ) 应 该 保留 ， 相 应 地 ， 我 们 指定 丢弃 的 比例 为 0.5 和 0.2。 





















































## Fit Models 
nn.models <- foreach(i = 1:4, .combine = 'c') $dopar$ { 
set.seed(1234) 
list(nn.train( 
x = as.matrix(digits.X), 
y = model.matrix(~ 0 + digits.y), 
hidden = c(40, 80, 40, 80) [il, 


activationfun = "tanh", 
learningrate = 0.8, 
momentum = 0.5, 


numepochs = 150, 


3.4 ”用例 一 一 使 用 丢弃 提升 样本 外 模型 性 能 ”65 


output = "softmax", 
hidden dropout = c(0, 0, .5, .5)[i], 
visible dropout = c(0, 0, .2, .2)[i])) 


接 下 来 ， 我 们 可 以 循环 模型 ， 获 得 预测 值 并 得 到 模型 的 整体 性 能 。 











nn.yhat <- lapply(nn.models, function(obj) { 
encodeClassLabels(nn.predict(obj, as.matrix(digits.X))) 


}) 


perf.train <- do.call(cbind, lapply(nn.yhat, function(yhat) { 





caret: :confusionMatrix(xtabs(~ I(yhat -1) +digits.y))Soverall 


})) 
colnames (perf.train) <- c("N40", "N80", "N40 Reg", "N80 Reg") 


options (digits = 4) 


perf.train 


N40 N80 N40 Reg N80 Reg 
Accuracy 0.9050 0.9546 0.9212 0.9396 
Kappa 0.8944 0.9495 0.9124 0.9329 
AccuracyLower 0.8965 0.9485 0.9134 0.9326 
AccuracyUpper 0.9130 0.9602 0.9285 0.9460 
AccuracyNull 0.1116 0.1116 0.1116 0.1116 
AccuracyPValue 0.0000 0.0000 0.0000 0.0000 
McnemarPValue NaN NaN NaN NaN 


当 我 们 在 样本 内 数据 中 评价 模型 的 时 候 ， 看 起 来 40 个 神经 元 的 有 正则 化 的 模 
型 比 没有 正则 化 的 模型 表现 要 好 ， 但 是 没有 80 个 神经 元 的 正则 化 的 模型 比 有 正则 
化 的 模型 表现 得 要 好 。 当 然 ， 真正 的 检验 要 在 测试 或 留 出 数据 上 来 做 。 


























i2 <- 5001:10000 
test.X <- digits.train[i2, -1] 
test.y <- digits.train[i2, 1] 


66 第 3 章 防止 过 拟 合 


nn.yhat.test «- lapply(nn.models, function(obj) { 
encodeClassLabels(nn.predict(obj, as.matrix(test.X))) 


}) 


perf.test <- do.call(cbind, lapply(nn.yhat.test, function(yhat) { 





caret: :confusionMatrix(xtabs(~ I(yhat - 1) + test.y))Soverall 
})) 
colnames (perf.test) <- c("N40", "N80", "N40 Reg", "N80 Reg") 





perf.test 

N40 N80 N40 Reg N80 Reg 
Accuracy 0.8652 0.8684 0.8868 0.9014 
Kappa 0.8502 0.8537 0.8742 0.8904 
AccuracyLower 0.8554 0.8587 0.8777 0.8928 
AccuracyUpper 0.8746 0.8777 0.8955 0.9095 
AccuracyNull 0.1074 0.1074 0.1074 0.1074 
AccuracyPValue 0.0000 0.0000 0.0000 0.0000 
McnemarPValue NaN NaN NaN NaN 











测试 数据 相当 好 地 突出 了 这 个 事实 ， 在 没有 正则 化 的 模型 中 ， 增 加 的 神经 元 并 
不 意味 着 提升 了 在 测试 数据 上 的 模型 性 能 。 而 且 ， 样 本 内 表现 也 过 于 乐观 了 (对 于 
80 个 神经 元 非 正则 化 的 模型 ， 在 训练 和 测试 数据 中 分 别 为 ， 准 确 度 =0.9546 和 准确 
度 =0.8684)。 然 而 ， 这 里 我 们 看 到 了 关于 40 个 和 80 个 神经 元 正则 化 模型 共同 的 优 
点 。 尽 管 它们 在 测试 数据 中 都 比 在 训练 数据 中 的 性 能 要 差 ， 但 在 测试 数据 中 ， 它 们 
比 对 应 的 非 正则 化 模型 的 性 能 要 好 。 对 于 80 个 神经 元 的 模型 这 个 差异 尤为 重要 ， 
因为 从 训练 数据 到 测试 数据 在 总 准确 度 上 有 0.0862 的 下 降 , 但 在 正则 化 的 模型 中 这 
个 下 降 仅 为 0.0382， 导 致 了 正则 化 的 80 个 神经 元 的 模型 有 最 好 的 整体 性 能 。 




































































































































































尽管 这 些 数 字 绝 不 是 创 纪录 的 ， 但 它们 的 确 显 示 了 丢弃 ， 或 者 更 通俗 地 说 是 正 
则 化 的 价值 ， 以 及 为 了 提升 最 终 的 测试 性 能 该 怎样 处 理 党 试 调节 模型 和 丢弃 参数 。 
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3.5 ”小结 





本 章 提 供 了 几 种 方法 来 防止 过 拟 合 ， 包 括 常 见 的 如 函数 一 一 L1 RA L2 
神 函 数 、 更 简单 模型 的 集成 以 及 丢弃 ， 其 中 变量 和 /或 样 例 被 去 掉 来 使 模型 更 杂乱 
并 且 防 止 了 过 拟 合 。 我 们 检查 了 在 回归 问题 和 神经 网 络 中 昼 函 数 的 作用 。 在 第 4 
章 ， 我 们 会 进入 深度 学 习 和 深度 神经 网 络 ， 看 一 看 怎样 把 预测 模型 的 准确 度 和 表 
现 推 得 更 远 。 
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在 本 章 中 , 我 们 将 深入 研究 深度 神经 网 络 和 深度 学 习 模型 。 这 一 章 将 关注 自动 编 
码 器 ， 它 可 以 用 来 学 习 数 据 集 的 特征 。 本 章 的 第 一 部 分 将 介绍 无 监督 学 习 ， 这 种 方 
法 中 没有 要 预测 的 具体 结果 。 接 下 来 4.2 节 在 机 器 学 习 特 别 是 深度 神经 网 络 背 景 下 ， 
提供 了 自动 编码 器 模型 的 一 个 概念 综述 。 本 章 的 主要 核心 将 介绍 如 何 建立 并 运用 自 
动 编码 器 模型 识别 异常 的 数据 。 这 种 非典 型 的 数据 可 能 仅仅 是 坏 数据 或 者 离 群 数据 ， 
但 这 种 技术 也 能 用 于 欺诈 检测 。 例 如 ， 当 一 张 个 人 信用 卡 的 消费 模型 不 同 于 通常 的 
行为 时 ， 就 可 能 是 有 些 地 方 不 对 劲 儿 ， 要 亮 起 红 灯 了 。 最 后 ， 本 章 以 如 何 微调 模型 
的 一 些 探索 来 结束 ， 包 括 使 用 第 3 章 所 讨论 的 不 同 正则 化 策略 。 除 了 深度 学 习 模 型 
自身 的 用 处 ， 本 章 还 将 提供 使 用 和 训练 它们 的 重要 组 件 。 
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这 一 章 将 会 包括 下 列 主 题 。 




















。 什么 是 无 监督 学 习 


。 目 动 编码 器 如 何 工作 














。 FER 中 训练 日 动 编码 器 























© 用 例 一 一 建立 并 训练 自动 编码 器 模型 











。 微调 目 动 编码 器 




















4.1 无 监督 学 习 入 门 


到 目前 为 止 ， 我 们 已 经 关注 过 大 体 上 可 以 归 入 有 监督 学 习 类 型 的 模型 和 技术 。 










































































Fo EEEH, 我 们 将 深入 研究 无 监督 学 习 的 方法 。 与 使 用 了 一 个 结果 变量 或 者 























有 监督 学 习 是 有 监督 的 , 意思 是 这 种 任务 是 机 器 要 取 学 习 
多 个 结果 之 间 的 关系 ,通常 只 有 单个 结果 。 例 如 ,一 家 公司 也 许 想 要 预测 某 人 人 
有 可 能 成 为 它 的 客户 ， 在 这 种 





组 变量 或 特征 与 一 个 或 





E 
是 否 





情形 下 ， 一 个 人 是 否 会 成 为 客户 的 结果 被 编码 为 是 / 














记 数 据 的 有 监督 学 习 不 同 ， 无 监督 学 习 只 使 用 输入 的 特征 来 学 习 。 











督学 习 的 例子 是 聚 类 分 析 ， 机 器 去 学 习 数 据 中 隐藏 的 或 者 潜在 的 








小 化 评价 的 准则 例如 一 个 聚 类 内 部 的 最 小 的 方差 )。 





男 一 种 关于 无 监督 学 习 的 方法 是 ， 


个 例子 如 图 4-1 所 示 ， 我 们 刚 


仅 是 重复 产生 输送 给 它 的 输入 值 的 复杂 模型 ， 




















而 ， 这 里 有 一 些 有 用 的 特征 。 




















一 种 常 月 

















组 p 个 变量 找到 一 组 隐藏 的 个 变量 , H k<p, 但 是 用 这 大 个 隐 变 

















M p 个 原始 变量 。 这 通常 是 
就 越 历 害 ， 但 要 以 精度 为 代价 。 











种 取舍 和 平衡 的 行为 ， 因 为 通常 降 





























聚 类 ， 目 标 是 
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一 个 常见 的 

















无 监 
去 最 


它 的 目标 是 去 预测 输入 值 。 这 种 方法 的 一 
开始 看 这 是 有 点 有 反 和 直觉 的 ， 因 为 去 学 习 一 个 目标 仅 
这 看 起 来 相对 而 言 没 有 什么 用 。 
目的 无 监督 学 习 是 降 维 。 降 维 的 目标 是 对 一 


然 





TERES TT TE 


维 越 历 害 ， 
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简化 
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或 许 ， 最 常见 的 降 





下 数据 的 多 












































是 只 




















的 例子 是 主 成 分 分 析 。 主 成 分 分 析 使 用 一 个 正 交 变换 把 
原始 数据 变 为 主 成 分 。 除 了 彼此 不 相关 之 外 ， 主 成 分 还 按照 从 解释 最 多 方差 的 成 
分 到 解释 最 少 方差 的 成 分 来 排序 。 昌 然 所 有 的 主 成 分 都 是 可 以 使 月 
E 度 没有 减少 ), 但 


的 “这 种 情况 
有 那些 解释 了 足够 大 数量 方差 (例如 基于 高 的 特 





征 值 ) 的 成 分 才 会 被 引入 模型 ， 而 那些 考虑 了 相对 较 少 方差 的 成 分 会 作为 噪声 或 
者 不 必要 的 成 分 而 被 舍弃 。 





4.2 自动 编码 器 如 何 工作 


与 到 目前 为 1 





[我 们 已 经 讨论 过 














的 基 他 各 








络 ， 它 可 以 是 浅 层 的 也 可 以 是 深度 的 。 
编码 器 是 被 训练 用 来 重新 4 

















是 在 一 个 输入 从 




















与 那些 更 党 


量 。 给 定 足 够 的 复杂 折 





























最 好 的 
构 或 老 




















架构 的 那 一 个 ， 
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学 习 最 显 


Ed oX 


车 或 最 突 
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用 亚 完备 模型 是 





动 编码 器 并 不 必需 是 最 准确 


i= 














或 者 











用 目 动 编码 器 的 一 种 方法 是 执行 降 
叫 作 亚 完备 的 〈undercomplete)。 利 用 1 
出 的 数据 特征 。 于 是 ， 这 些 戎 
理 。 例 如 ， 一 个 自动 编码 器 重要 而 | 











经 网 络 一 样 ， 
自动 编码 器 和 其 他 的 















































E 成 输入 值 或 者 预测 输入 但 








自动 编码 器 也 是 神经 网 
! 经 网 络 的 区 别 是 

















动 
































"2 a: 
是 减少 噪声 、 


并 不 必然 涉及 模型 输入 的 精确 预测 的 








和 某 些 其 他 结果 之 间 上 映射 ， 而 是 目 《 


动 ) 编码 的 。 





























的 那 一 个 ,而 是 能 揭示 数据 
































1 练 的 结果 和 输入 值 是 相同 的 ， 
' 一 些 有 意义 的 结 








数 ， 而 且 隐 藏 神经 元 将 会 精确 


的 。 因此 隐藏 层 和 神经 元 并 不 


见 的 神经 网 络 的 情况 不 同 ,它们 的 结果 是 一 些 我 们 想 要 去 预测 的 变 
E， 目 动 编码 器 只 能 学 习 恒 等 函 
地 反映 原始 数据 ， 产 生 没有 意义 的 收获 。 因 为 用 于 ， 


















































附带 作 























E。 比 原始 数据 有 更 





识别 离 群 点 或 异常 数据 、 有 着 茶 些 作 用 但 
用 的 那 一 个 。 








针 维 度 的 自动 编码 器 






































的 隐藏 特征 能 





完备 的 上 自动 编码 器 ， 我 们 能 使 日 动 编 











[E 












































关于 数据 























! 的 关键 特征 或 者 结构 的 深入 理解 。 




















一 种 正则 化 模型 的 有 效 方法 。 然而， 如 果 使 





























用 于 进一步 分 析 或 处 
昌 常 见 的 应 用 是 去 预先 训练 深度 神经 网 络 或 者 其 
他 的 有 监督 模型 。 除 此 之 外 ,直接 解释 隐藏 特征 本 身 也 许 是 有 可 能 的 而 且 
的 。 例 如 ， 它 们 可 以 提供 




















| 也 是 有 趣 


用 茶 些 其 他 方式 


的 正则 化 ， 也 有 可 能 训练 出 过 完备 Covercomplete) 的 目 动 编码 器 ， 其 叶 
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数 大 于 原始 数据 。 接 下 来 我 们 将 更 深入 地 讨论 正则 化 的 不 同形 式 。 





和 规则 的 神经 网 络 一 样 ， 对 于 自动 编码 器 也 有 两 个 部 分 。 首 先 ， 
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PP 隐藏 的 维 


个 编码 函数 


用， )， 把 原始 数据 编码 传递 给 隐藏 神经 元 ， 其 次 ， 一 个 解码 函数 g(* )， 将 解码 回 
原始 数据 。 














正则 化 的 自动 编码 费 





一 个 亚 完 备 的 目 动 编码 器 ， 在 茶 种 程度 上 是 一 种 正则 化 的 自动 编码 器 的 形式 ， 


其 中 的 了 














E 则 化 是 通过 使 月 





一 个 比 数 














ERI RARE, MRAD $ 











发 生 的 。 但 是 ， 正 则 化 也 可 以 通过 其 他 含义 来 实现 。 





1， 惩 罚 的 自动 编码 器 
如 同 我 们 在 第 3 章 中 所 见 ， 一 种 方法 是 使 用 惩罚 。 通 常 ， 我 们 的 目的 是 〈 尽 可 











能 简单 地 ) 最 小 化 习 


























E 构 误差 。 如 果 有 一 个 目 






































E 度 表示 来 

















标 函 数 , 传统 上 , 我 们 可 以 优化 F, fod): 


其 中 fs ) 编 码 原始 数据 的 输入 来 生成 预测 的 或 者 期 望 的 y 值 。 对 于 自动 编码 器 来 


Ui, RIIE Fox, gx)))， 所 以 机 器 来 学 习 权重 以 及 及 ，) 和 g(。) 的 函数 形式 ， 最 小 


化 x 与 x 的 命名 为 gfx)) 的 如 
动 编码 器 ， 我 们 需要 引入 某 和 和 


示 法 并 


HITI PRA P ORC] 
前 见 过 的 惩罚 形式 ， 然 而 ， 那 上 



































E 构 物 之 间 的 不 相符 合 之 处 。 如 果 想 要 
' 程 度 的 正则 化 来 强迫 机 咒 去 学 习 一 种 表示 法 ， 这 种 表 





























个 过 完备 的 目 


E 仅 仅 是 输入 值 的 完全 镜像 。 例 如 ， 我们 可 能 会 加 入 一 个 基于 复杂 性 来 进行 
惩罚 的 函数 ， 这 样 ， 我 们 不 优化 Fæ, ea) MERE FO, g(f)) + Po), FEA 















































编码 或 者 原始 输入 及，), 这 样 的 惩罚 在 茶 种 程度 上 不 同 于 我 们 之 
的 惩 避 设计 不 是 为 了 减少 参数 的 稀 玻 性 ， 而 是 为 了 





减少 原始 数据 编码 表达 的 潜 变 量 H 的 稀 昔 性 。 其 学 习 目 标 是 捕捉 数据 本 质 特 征 的 淤 
变量 形式 。 












































编码 器 有 具有 减少 潜 变 量 的 稀 琉 怕 


























可 以 用 来 提供 正则 化 的 惩罚 的 男 一 种 类 型 是 基于 导数 的 方法 。 不 同 于 稀 琉 的 












































E. 
的 惩罚 ， 惩 如 模型 中 的 求 导 结果 ， 学 习 了 一 种 对 原 








始 输入 数据 x 的 小 扰动 相对 不 敏感 的 fx)， 更 确切 地 说 ， 它 对 x 中 的 改变 编码 变化 
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=~ 
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大 的 函数 施加 了 惩罚 ， 选 择 了 那些 梯度 相对 平坦 的 区 域 。 
2. 去 噪 自 动 编码 器 





去 噪 自动 编码 器 (denoising auto-encoders) 移 除 了 噪声 或 者 对 数据 去 噪 ， 而 且 
是 学 习 原 始 数 据 中 的 潜在 表示 C Vincent, P., Larochelle, H., Bengio, Y 和 Manzagol, P. 
A. (2008, July); Bengio, Y., Courville, A. 和 Vincent, P. (2013)) 的 一 种 有 用 的 技术 。 我 
们 说 过 自动 编码 器 的 一 般 任 务 是 去 优化 F(x,g00)))。 然 而 对 于 一 个 去 噪 自动 编码 器 
来 说 ， 是 从 有 了 噪声 的 或 者 记 为 x 的 x 损坏 版 本 中 去 恢复 x。 所 以 ， 任 务 就 变 成 了 优 
化 F(x,g(f(x)) - 





















































尽管 去 噪 编码 器 是 用 来 尝试 从 损坏 数据 或 者 有 噪声 的 数据 中 恢复 “真正 的 ?” 
表示 ， 这 项 技术 也 可 以 用 作 一 种 正则 化 的 工具 。 作 为 一 种 正则 化 方法 ， 原 始 数据 
是 故意 损坏 的 ， 而 不 是 有 噪声 的 或 者 损坏 的 数据 并 且 试 图 恢复 真实 。 这 促使 自动 
编码 器 要 做 的 比 仅仅 去 学 习 恒 等 函数 要 多 得 多 ， 因 为 原始 输入 〈x ) 不 再 和 输出 x 
相同 。 这 个 过 程 如 图 4-2 所 示 。 























































































































剩 下 的 是 选择 什么 样 的 函数 WM。)， 这 个 函数 应 该 增加 x 的 噪声 或 者 损坏 。 这 
EE 有 两 种 增加 噪声 的 选择 , 通过 一 个 随机 过 程 或 者 对 任何 给 定 的 训练 循环 中 包括 进 
来 一 个 原始 x 输入 的 子 集 。 接 下 来 , 我 们 来 探索 如 何在 R 中 真正 地 训练 一 个 自动 编 
码 占 模型 。 
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4.3 在 R 中 训练 自动 编码 器 


为 了 训练 第 一 个 自动 编码 器 ， 我 们 首先 需要 R 做 好 准备 。 除 了 在 
checkpoint.R 中 的 其 他 的 R 包 ， 我们 还 要 添加 data.table 包 来 帮助 数据 管理 ， 如 
下 列 代码 所 示 。 
































library (data.table) 











现在 我 们 可 以 得 到 checkpoint.R 文件 来 建立 用 于 分 析 的 R 环境 ,如 下 所 示 。 





source ("checkpoint.R") 
options (width = 70, digits = 2) 














对 于 这 些 最 初 的 例子 ， 我 们 将 使 用 美国 国家 标准 和 技术 研究 所 (Modified 
National Institute of Standards and Technology，MNIST) 的 数字 图 像 数 据 。 与 之 前 的 
草 节 一 样 ， 下 面 的 代码 载 入 所 需 的 数据 并 且 建 立 用 于 分 析 的 H2O 集群 。 我 们 使 用 
数据 的 前 20 000 行 来 训练 并 将 接 下 来 的 10 000 行 用 于 测试 。 除 了 载 入 数据 并 建立 
H20 集群 ， 我 们 需要 将 数据 转移 到 H20， 这 由 as.nh2o () 函数 来 完成 。 





















































## data and H20 setup 
digits.train «- read.csv("train.csv") 
digits.trainSlabel <- factor(digits.train$1abel, levels = 0:9) 





cl <- h2o.init( 
max mem size - "20G", 
nthreads - 10) 


h2odigits «- as.h2o( 
digits.train, 
destination frame = "h2odigits") 
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i <- 1:20000 
h2odigits.train <- h2odigits[i, -1] 


itest «- 20001:30000 
h2odigits.test <- h2odigits[itest, -1] 


xnames <- colnames (h2odigits.train) 














为 了 便于 分 析 , 我 们 使 用 h2o.deeplearning O 函数 , 这 个 函数 有 很 多 选项 ， 
而 且 提供 了 H20 中 可 用 的 所 有 深度 学 习 特征 。 在 我 们 着 手 如 何 编写 模型 代码 时 候 ， 
对 可 重复 性 做 一 个 简要 的 评论 是 符合 规程 的 。 通 常 ， 为 了 使 运行 代码 的 结果 完全 可 
重复 ， 我 们 可 能 要 设置 随机 数 种 子 。H2O 使 用 一 种 称 为 Hogwild! 的 并 行 方法 ， 这 
种 方法 并 行 了 随机 梯度 下 降 优 化 , 用 于 如 何 优 化 /决定 模型 权重 (参见 Niu, F., Recht, 
B., Ré, C., 和 Wright, S. J. (2011) 的 Hogwild!:A Lock-Free Approach to Parallelizing 
Stochastic Gradient Descent, https://www.eecs.berkeley.edu/~brecht/papers/hogwildTR. 
pdf). AX Hogwild! 起 作用 的 方式 ， 使 得 结果 完全 可 重复 是 不 太 可 能 的 ， 所 以 ， 当 
我 们 运行 这 些 代码 时 ， 或 许 会 得 到 稍微 不 同 的 结果 。 






































| 加 






























































fE h20.deeplearning () 函数 的 调用 中 ， 第 一 个 参数 是 x 或 者 输入 变量 名 的 
列表 ,训练 框 (training frame) 是 H20 数据 用 于 模型 训练 的 , 验证 框 (validation frame) 
只 是 在 没 用 来 训练 的 数据 上 评价 模型 性 能 。 接 下 来 ， 我 们 指定 用 在 这 里 的 激活 函 
数 Tanh, 在 接 下 来 的 有 关 深 度 学 习 预 测 的 章节 中 我 们 将 会 讨论 这 个 函数 更 多 
的 细节 。 通 过 设置 参数 autoencoder = TRUE， 这 个 模型 就 成 为 一 个 自动 编码 
器 模型 ， 而 不 是 规则 模型 ， 所 以 没有 需要 指定 的 y 或 者 输出 变量 。 

















































































































尽管 使 用 了 一 个 深度 学 习 函 数 ， 为 了 入 门 我 们 仍 要 用 一 个 单 层 〈 浅 层 ) 的 隐藏 
神经 元 。 这 里 有 20 次 的 训练 乏 代 ， 叫 作 轮 数 (epoch)。 其 余 的 参数 只 是 对 这 个 模 
型 指定 不 使 用 任何 正则 化 。 正 则 化 是 不 需要 的 ， 因 为 这 里 有 数 百 个 输入 变量 但 只 
50 个 隐藏 神经 元 ， 所 以 相对 简单 的 模型 提供 了 所 有 需要 的 正则 化 。 最 后 ， 所 有 的 结 
果 存 储 在 一 个 RR 对 象 ml 里。 






















































































ml <- h2o.deeplearning ( 


X = xnames, 
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training frame- h2odigits.train, 
validation frame - h2odigits.test, 
activation = "Tanh", 

autoencoder = TRUE, 
hidden = c(50), 


epochs = 20, 





sparsity beta - O0, 


input dropout ratio = 0, 
hidden dropout ratios - c(0), 
Li SOs, 

12 = 0 


其 余 的 模型 和 第 一 个 模型 相似 ， 但 是 通过 增加 隐藏 神经 元 的 个 数 和 加 入 正则 
化 ,我们 调整 了 模型 的 复杂 性 。 上 基体 来 说 ,模型 m2a 没有 任何 正则 化 , 但 是 把 隐藏 
神经 元 的 个 数 增加 到 了 100 个 。 模 型 m2b 使 用 100 个 隐藏 神经 元 还 有 一 个 .5 FRUR 
beta 值 。 最 后 ， 模 型 m2c 使 用 100 个 神经 元 和 输入 Gc 变量 ) 的 20% 的 丢弃 ， 这 会 
导致 一 种 损坏 的 输入 形式 ， 所 以 模型 m2c 是 一 种 去 噪 自动 编码 器 的 形式 。 
















































































m2a <- h2o.deeplearning( 
x — xnames, 
training frame- h2odigits.train, 
validation frame - h2odigits.test, 
activation = "Tanh", 
autoencoder = TRUE, 
hidden = c(100), 
epochs = 20, 





sparsity beta = 0, 


input_dropout_ratio = 0, 
hidden dropout ratios = c(0), 
11 = 0, 

12 = 0 


m2b <- h2o.deeplearning ( 





x = xnames, 
training frame- h2odigits.train, 
validation frame - h2odigits.test, 


activation = "Tanh", 





autoencoder = TRUE, 
hidden = c(100), 
epochs = 20, 


sparsity beta = .5, 
input_dropout_ratio = 0, 
hidden dropout ratios = c(0), 
q11.2- 9; 

12 = 0 


m2c <- h2o.deeplearning ( 
X = xnames, 
training frame= h2odigits.train, 
validation frame = h2odigits.test, 
activation = "Tanh", 
autoencoder = TRUE, 
hidden = c(100), 
epochs = 20, 





sparsity beta - O0, 

input dropout ratio - .2, 
hidden dropout ratios - c(0), 
1I £9, 

12 = 0 











根据 在 R 中 键入 存储 的 模型 对 象 的 名 字 ， 我 们 会 得 到 模型 和 它 的 性 能 的 汇总 。 
为 了 市 省 空间 ， 许 多 输出 被 省 上 咯 了 ， 但 是 对 每 一 个 模型 ,我 们 在 后 面 的 输出 中 用 训 
练 数 据 和 验证 数据 中 的 均 方 误差 (mean squared error, MSE) 作为 性 能 的 表示 。 取 
值 为 零 的 MSE 表明 了 一 个 完美 的 拟 合 ， 更 高 取 值 的 MSE 表明 了 在 gx)) 和 x 之 间 
的 偏差 。 



























































在 模型 m1 rf 














xat i] 








F 部 分 归 因 于 这 是 








有 数 百 个 输入 变量 














BO. (EPUM 


» MSE 是 相当 低 的 , 而 且 
个 相对 简单 的 模型 (50 个 隐藏 入 
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在 训练 数据 和 验证 数据 中 是 完全 相同 的 。 























经 元 和 20 个 轮 数 ， 同 时 
m2a 中 ,在 MSE 上 有 45% 的 减少 ， 




















尽管 两 者 都 很 低 。 




















但 是 伴随 着 更 大 的 模型 复杂 性 ， 我 们 可 以 观察 到 在 训练 和 验证 度量 中 轻微 的 差异 。 

















在 m2b 





! 我 们 也 注意 到 相似 的 结果 。 
也 暗示 正则 化 的 训练 数据 的 性 能 泛 化 得 更 好 。 在 m2c 中 ， 没 有 额外 模型 复杂 中 
20% 的 输入 丢弃 在 训练 数据 和 验证 数据 中 都 导致 了 更 差 的 性 能 






































尽管 事实 上 验证 














的 初始 模型 太 简 六 





ml 


及 了， 真 的 不 需要 很 多 的 正则 化 。 


Training Set Metrics: 




















MSE: ( 





H20AutoEncoderMetrics: 


** Reported on validation data. 


Extract with 


'h20.mse') 0.014 


deeplearning 


大 大 


Validation Set Metrics: 











MSE: ( 











m2a 


Extract with 


Training Set Metrics: 











MSE: ( 














H20AutoEncoderMetrics: 


** Reported on validation data. 


Extract with 


"h2o.mse') 0.014 
"h2o.mse') 0.0076 
deeplearning 


大 大 


Validation Set Metrics: 








度量 没有 随 着 正 





则 化 而 提升 ， 








生 的 
. 100 个 隐藏 神经 元 














MSE: 








bes 


Extract with 'h2o.mse') 0.0079 





m2b 


Training Set Metrics: 











MSE: 











as 


Extract with 'h2o.mse') 0.0077 





H20AutoEncoderMetrics: deeplearning 


** Reported on validation data. ** 


Validation Set Metrics: 











MSE: 








PE 


Extract with 'h2o.mse') 0.0079 





m2c 


Training Set Metrics: 











MSE: 








PES 


Extract with 'h2o.mse') 0.0095 








H20AutoEncoderMetrics: deeplearning 


** Reported on validation data. ** 


Validation Set Metrics: 











MSE: 








DN 


Extract with 'h2o.mse') 0.0098 



































我 们 能 审视 模型 结果 的 另 一 种 方法 是 计算 这 个 模型 的 异常 程度 ， 可 以 使 用 
h2o .anomaly () 函数 来 完成 。 这 个 结果 被 转换 为 数据 框 ， 做 了 标记 并 且 合 并 到 一 
个 叫 作 “error” 的 最 后 的 数据 表格 对 象 中 。 
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rrorl <- as.data.frame(h20.anomaly(ml1, h2odigits.train)) 


rror2a <- as.data.frame(h20.anomaly(m2a, h2odigits.train)) 


0 00 0 


( 
rror2b <- as.data.frame(h20.anomaly(m2b, h2odigits.train)) 
( 


rror2c <- as.data.frame(h20.anomaly(m2c, h2odigits.train)) 














error «- as.data.table(rbind( 
cbind.data.frame(Model = 1, errorl), 





cbind.data.frame(Model = "2a", error2a), 
cbind.data.frame(Model = "2b", error2b), 
cbind.data.frame(Model = "2c", error2c))) 








接 下 来 ， 我 们 会 使 用 data.table 包 创 建 一 个 新 的 数据 对 象 percentile, WF 
每 个 模型 这 个 对 象 包含 了 99% 分 位 数 。 


percentile <- error[, .( 








Percentile = quantile(Reconstruction.MSE, probs = .99) 
), by = Model] 


将 模型 得 到 的 每 种 情况 的 异常 程度 以 及 99% 分 位 数 的 信息 组 合 起 来 ,我 们 能 用 
ggplot2 包 画 出 结果 。 直 方 图 显示 J 种 情况 的 误差 比 ， 虚 线 是 99% 分 位 数 。 任 
何 超过 99% 分 位 数 的 值 都 可 以 认为 是 相当 极端 或 者 异常 的 。 
















































































p <- ggplot(error, aes(Reconstruction.MSE)) 十 
geom histogram(binwidth = .001, fill = "grey50") + 
geom vline(aes(xintercept - Percentile), data - percentile, 
linetype -2) + theme bw() + facet wrap (~Model) 
print (p) 


这 个 结果 如 图 4-3 所 示 。 模 型 2a 2b 有 最 低 的 误差 比 ， 而 且 我 们 能 看 到 小 的 
尾部 。 
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1000 - 





j 0.00 0.02 0.04 
Reconstruction.MSE 











图 4-3 








如 果 我 们 横向 合并 数据 ， 每 个 模型 的 异常 值 在 不 同 的 列 当中 而 不 是 在 另 一 个 
指示 了 模型 的 很 长 的 列 中 ， 我 们 能 够 针对 两 两 变量 画 出 异常 值 。 结 果 如 图 4-4 所 
示 ， 而 且 其 中 显示 了 模型 之 间 更 高 的 对 应 程度 ， 往 往 伴随 着 对 一 个 模型 异常 对 为 
一 个 模型 也 寞 常 的 情况 。 












































error.tmp «- cbind(errorl, error2a, error2b, error2c) 
colnames(error.tmp) <- c("M1", "M2a", "M2b", "M2c") 


plot (error.tmp) 





我 们 能 检查 模型 结果 的 男 一 种 方法 是 提取 模型 的 深度 特征 。( 一 层 层 的 ) 深度 
特征 可 以 使 用 h2o .deepfeatures O 函数 来 提取 。 深度 特征 是 模型 中 隐藏 神经 元 
的 值 。 探 索 这 些 特征 的 一 种 方法 是 计算 它们 的 相关 性 并 检查 相关 系数 的 分 布 ， 如 下 
所 示 代 人 码 ， 再 一 次 使 用 ggplot2 W. ARWR 4-5 所 示 。 一 上 般 来 讲 ， 深 度 特征 有 小 
的 相关 系数 +r， 绝对 值 小 于 .20， 只 有 极 少 数 |x|>.20。 
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i= 
ES 


常数 据 





featuresl <- as.dqata.frame (h2o.deepfeatures (m 





r.featuresl <- cor(features1) 
r.featuresl «- data.fram 
)1) 
p.hist «- ggplot(r.featuresl, aes(r)) + 
geom histogram(binwidth = .02) + 


theme classic() 


print (p.hist) 











1, h2odigits.train 


(r = r.featuresl[upper.tri(r.featuresl 





























到 目前 为 止 例 子 显示 了 自动 编码 器 是 如 何 训练 的 ， 但 是 上 只 表示 了 有 一 个 隐藏 层 
的 浅 层 自 动 编码 器 。 我 们 也 可 以 有 多 个 隐藏 层 的 深度 自动 编码 器 。 















































考虑 到 我 们 知道 MNIST 数据 集 包 含 10 个 不 同 的 手写 体 数 字 , 或 许 我 们 可 以 尝 








试 增加 只 有 10 个 神经 元 的 第 二 层 隐 藏 神经 元 ， 假 设 当 
10 个 突出 的 特征 会 对 应 于 这 10 个 数字 。 




















为 了 加 上 这 第 二 层 的 隐藏 神经 元 ， 我 们 为 hidqqen 
同时 更 新 hidden dropout ratios BA, A 
不 同 的 丢弃 率 。 











m3 <- h2o.deeplearning( 


X 


xnames, 
training frame- h2odigits.train, 
h2odigits.test, 


validation frame 





activation = "Tanh", 
autoencoder = TRUE, 
hidden = c(100, 10), 
epochs = 30, 


sparsity beta - O0, 


input dropout ratio - 


hidden dropout ratios 
11 = 0, 





模型 学 习 数 字 特 征 的 时 候 ， 


参数 传递 一 个 向 量 c (100， 
为 可 以 对 每 一 个 隐藏 层 使 用 


和 之 前 见 到 的 一 样 ， 我 们 能 对 隐藏 神经 元 提取 值 。 这 上 























我 们 再 次 使 用 

















h2o.deepfeatures () 函数 ， 但 是 可 以 对 于 第 2 层 指 定 我 们 想 要 的 值 。 接 下 来 显 





示 的 是 这 些 特 生 


features3 <- as.data.frame(h2o0.deepfeatures (m3, 


2)) 








head(features3) 


F 的 前 六 行 。 


DF.L2 
1 -0.16 0.01 
2 -0.28 -0.77 
3 -0.48 -0.23 
4 -0.30 S097 
5 -0.36 05.73 
6 -0.24 0.16 
DF.L2.C8 DF.L2.C9 
1 0.023 -0.39 
2 0.321 20:39 
3 0.589 03:59 
4 -0.224 -0.31 
5 0.347 -0.62 
6 -0.592 0.11 
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R, NAE 10 个 连续 隐藏 神经 元 的 值 。 


接 下 来 我 们 能 加 上 来 自 训 练 数 据 的 真实 的 数据 标签 ， 而 且 
数据 重 塑 为 一 个 长 的 数据 集 。 从 那里 出 发 ， 根 据 数字 实际 上 属于 
能 画 出 10 个 隐藏 神 
字 ， 对 于 特别 的 标签 (例如 0、3 等 )， 它 们 应 该 会 在 深度 特征 上 具有 
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个 的 均值 。 妇 











7468 
4422 
3252 
1896 
4807 
0064 


























表明 深度 特征 和 真实 数字 之 间 的 对 应 。 结 果 如 图 4-6 所 示 。 























h2odigits.train, 


-Cl DF.L2.C2 DF.L2.C3 DF.L2.C4 DF.L2.C5 DF.L2.C6 


0.11 
-0.66 
0.42 
-0.27 
-0.62 
-0.20 


DF.L2.C7 


=05 
0. 
Ds 
0. 
0. 
0 


3927 
6042 
0088 
1442 
6828 


.4794 


因为 这 里 没有 要 预测 的 结果 ， 这 些 值 是 连续 的 而 并 不 作为 某 个 特别 数字 的 概 


使 用 melt () 函数 把 
































W— REN. S] 
IR 10 个 隐藏 特征 粗略 地 对 应 着 10 个 数 
个 极端 值 ， 








features3$1abel <- digits.trainSlabel [i] 
features3 «- melt(features3, id.vars = "label") 


p.line «- ggplot(features3, aes(as.numeric(variable), value, 


colour = label, linetype = label)) + 





stat summary(fun.y - mean, geom - "line") 4 

scale x continuous ("Deep Features", breaks = 1:10) + 

theme classic() + 

theme(legend.position = "bottom", legend.key.width = unit (1， 


"ecm"))print(p.line) 
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0.25 
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图 4-6 











虽然 这 里 看 起 来 存在 茶 些 对 应 关系 (例如 , 零 在 深度 特征 4 和 7 上 证 特别 高 的 )， 
但 是 总 的 来 说 ， 结 果 是 非常 杂乱 的 ， 在 深度 特征 和 真实 数字 标签 之 间 没 有 高 区 分 度 
的 特别 明显 的 标示 。 
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最 后 ， 我 们 可 以 看 一 下 模型 的 性 能 度量 。MSE 大 约 是 0.039， 比 起 浅 层 模型 来 ， 
深度 模型 的 拟 合 相当 差 ， 这 可 能 是 因为 在 第 2 层 中 只 有 10 个 隐藏 神经 元 ， 这 太 简 
单 了 ， 不 足以 捕捉 为 重建 原始 输入 所 需要 数据 的 所 有 不 同 特征 。 






































m3 
Training Set Metrics: 











MSE: (Extract with 'h2o.mse') 0.039 











H20AutoEncoderMetrics: deeplearning 





** Reported on validation data. ** 


Validation Set Metrics: 











MSE: (Extract with 'h2o.mse') 0.04 














这 一 节 已 经 介绍 了 训练 自动 编码 器 的 模型 、 代 码 以 及 评价 模型 性 能 的 一 些 方法 
的 基础 。 接 下 来 ， 我 们 来 看 一 个 用 例 : 使 用 自动 编码 器 发 现 异常 值 。 
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关于 用 例 ， 我 们 使 用 之 前 验证 过 的 来 自 智 能 手机 的 活动 记录 仪 数据 。 这 些 数 据 
包括 活动 记录 仪 记录 的 一 些 人 在 坐 、 站 、 卧 、 行 走 和 上 下 楼 梯 时 的 数据 。 我 们 的 目 
的 是 识别 数据 中 的 任何 异常 值 或 者 那些 反常 或 不 同 寻 常 的 值 。 













































































用 于 











首先 ， 我 们 将 把 训练 和 测试 数据 载 入 到 R 中 ， 然 后 把 它 转 化 到 H20 
分 析 。 


use.train.x «- read.table("UCI HAR Dataset/train/X train.txt") 
use.test.x «- read.table("UCI HAR Dataset/test/X test.txt") 





use.train.y «- read.table("UCI HAR Dataset/train/y train.txt") 


[[1]] 


use.test.y X= read.table("UCI HAR Dataset/test/y test.txt") [[1 
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use.labels <- read.table("UCI HAR Dataset/activity labels.txt") 


h2oactivity.train «- as.h2o( 


use.train.x, 


destination frame = "h2oactivitytrain") 





h2oactivity.test «- as.h2o( 


use.test.x, 








destination frame = "h2oactivitytest") 





随 厦 数据 载 入 ， 我 们 做 好 准备 去 训练 模型 。 模 型 的 建立 过 程 和 我 们 曾经 训练 过 














的 初始 模型 极为 相似 。 媳 


T 





























这 里 我 们 使 用 两 个 层 ， 每 层 有 100 



































申 经 元 。 目 前 ， 这 里 





i 























性 可 以 提供 足够 的 正则 化 。 


mul <- h2o.deeplearning ( 


04% 
没有 使 用 特定 的 正则 化 ， 当 然 ， 隐 藏 神经 元 比 起 输入 的 变量 明显 要 少 ， 模 型 的 简单 





x = colnames (h2oactivity.train), 


training frame- h2oactivity.train, 


validation frame - h2oactivity.test, 


activation = "Tanh", 





autoencoder = TRUE, 
hidden c(100, 100), 
epochs = 30, 


sparsity beta - O0, 
input dropout ratio - 
hidden dropout ratios 
11 = 0, 

12 = 0 
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检查 模型 的 性 能 , 它 有 非常 低 的 重建 误差 。 这 说 明 为 了 捕捉 数据 中 的 关键 特征 


模型 足够 复杂 。 训 练 数 据 和 测试 数据 之 间 在 模型 性 能 中 没有 重大 的 差异 。 








» 























mui 
Training Set Metrics: 











MSE: (Extract with 'h2o.mse') 0.001 














H20AutoEncoderMetrics: deeplearning 


** Reported on validation data. ** 


Validation Set Metrics: 











MSE: (Extract with 'h2o.mse') 0.0011 














我 们 能 提取 出 每 种 情况 的 异常 程度 并 且 画 出 分 布 。 结 果 如 图 4-7 tas. Sif s 
见 这 里 有 一 些 情 况 比 其 余 的 情况 更 加 异常 ， 因 为 显示 出 了 更 高 的 误差 率 。 

















errorul <- as.data.frame(h2o.anomaly(mul, h2oactivity.train)) 





puel «- ggplot(errorul, aes(Reconstruction.MSE)) 十 
geom histogram(binwidth = .001, fill = "grey50") + 


geom vline(xintercept = quantile(errorul[[1]], probs = .99), 





linetype = 2) + 
theme bw() 
print (puel) 








试图 更 深入 地 探索 这 些 异 向 的 一 种 方法 是 ,检查 是 否 存 在 某 种 活动 趋向 于 有 更 
多 或 者 更 少 的 异常 值 。 通 过 找到 哪 种 情况 异 第 ,我 们 就 能 做 到 这 一 点 ， 这 里 把 异常 
情况 定义 为 前 1% 的 误差 率 ， 然 后 提取 那些 情况 的 活动 并 且 画 出 它们 。 这 样 做 的 结 
果 如 图 4-8 所 示 。 绝 大 多 数 的 异常 情况 来 日 于 下 楼 或 者 丹 下 时 。 伴 随 着 再 现 的 输入 
中 的 高 误差 ,深度 特征 或 许 对 这 些 情况 是 一 种 (相对 )〉 差 的 输入 表示 。 在 实践 中 ， 
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如 果 根 据 这 些 结果 来 分 类 ， 我 们 可 能 会 排除 这 些 情况 ， 因 为 它们 似乎 不 能 拟 合 模型 
学 习 到 的 特征 。 
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4000 - 


3000 - 


count 


2000 - 


1000 - 





T T T 
0.01 0.02 0.03 
Reconstruction.MSE 














图 4-7 


= 


i.anomolous <- errorul$Reconstruction.MSE >= quantile(errorul[ 
[1]], probs = .99) 








pu.anomolous <- ggplot(as.data.frame (table (use.labels$V2[use. 
train.y[i.anomolous]])), 


aes (Varl, Freq)) + 





geom bar (stat = "identity") + 

xlab("") + ylab ("Frequency") + 

theme classic() + 

theme(axis.text.x = element text(angle = 45, hjust = 1, vjus 
€= 1)) 


f print the ggplot2 plot object 


4.4 


print (pu.anomolous) 
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Frequency 


























图 4-8 











在 这 个 例子 中 ， 我 们 使 用 深度 自动 编码 器 模型 学 习 来 自 智能 手机 的 活动 记录 仪 





























数据 的 特征 。 这 种 方法 对 于 排除 未 知 的 或 不 寻常 的 活动 是 很 有 用 的 ， 而 不 对 它们 进 
行 不 正确 地 分 类 。 例 如 ， 作 为 一 个 要 分 类 我 们 所 从 事 的 活动 花费 时 间 的 app 的 一 部 
分 ， 与 其 在 我 们 下 楼 梯 的 时 候 ， 去 异常 的 调用 一 种 行走 或 者 坐 下 的 活动 ， 还 不 如 在 









































模型 不 确定 或 者 隐藏 特征 没有 充分 重建 输入 值 的 地 方 离开 儿 分 钟 ， 这 或 许 更 好 。 








这 样 的 工作 也 有 助 于 识别 模型 通常 会 在 哪 




















出 现 更 多 的 问题 。 或 许 我 们 需要 更 














多 的 传感器 和 额外 的 数据 去 更 多 地 表示 下 楼 梯 的 情况 ,才能 够 理解 为 什么 下 楼 梯 会 


产生 相对 高 的 误差 率 。 














这 些 深度 上 自动 编码 器 在 其 他 重要 的 识别 异常 的 场景 中 也 很 有 用 ， 比 如 说 金融 数 
据 或 者 信用 卡 的 使 用 模式 。 异 币 的 消费 模式 或 许 表明 有 坎 诈 发 生 或 者 这 张 信 用 卡 被 
盗 了 。 与 其 试图 在 几 百 万 次 信用 卡 交 易 中 人 工 搜索 ， 不 如 训练 一 个 自动 编码 器 模型 









































并 用 它 来 识别 寞 第 用 于 进一步 地 探索 。 
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4.5 ”微调 自动 编码 器 模型 











在 本 章 的 前 面 ， 我 们 已 经 学 习 了 如 何 训练 并 且 使 用 自动 编码 器 模型 。 最 后 本 节 
我 们 探索 如 何 优化 和 微调 自动 编码 器 模型 ， 去 验证 例如 如 何 选 取 隐 藏 神经 元 的 个 数 
或 者 层 数 的 这 样 问题 。 

































































有 时 候 ， 或 许 是 出 于 概念 的 原因 ， 我 们 要 假定 关于 数据 的 确定 结构 。 然 而 ， 如 
果 不 是 这 样 的 情况 ,我们 可 以 变化 参数 的 值 来 获得 最 好 的 模型 。 在 我 们 尝试 多 个 模 
型 并 且 要 选择 一 个 最 佳 模型 的 时 候 加 重 了 一 种 困境 ， 那 就 是 ， 即 使 几 个 模型 是 等 价 
的 ， 因 为 偶然 ， 在 一 个 给 定 的 样本 内 某 一 个 模型 的 性 能 可 以 优 于 其 他 的 模型 。 要 解 
决 这 一 点 ， 从 而 只 在 使 用 训练 数据 的 时 候 优 化 参数 值 ， 我 们 可 以 在 训练 过 程 中 使 用 
诸如 交叉 验证 这 样 的 技术 ， 只 是 这 个 最 终 的 模型 需要 使 用 留 出 数据 或 测试 数据 来 验 
证 。 目 前 ， 对 于 自动 编码 器 模型 ，H20 还 不 支持 交叉 验证 。 如 果 我 们 真 的 想 用 交叉 
验证 ， 可 以 手动 来 实现 。 使 用 来 自 caret 包 的 createFolds() 函数 ， 我 们 能 容易 
地 实现 这 一 点 。 






























































































































































## create 5 folds 
folds <- createFolds(1:20000, k = 5) 





接 下 来 ， 我 们 创建 一 个 想 要 尝试 微调 的 超 参数 列表 ， 如 下 列 的 代码 所 示 。 


## create parameters to try 


hyperparams <- list ( 


list ( 
hidden = c(50), 
input dr = c(0), 
hidden_dr = c(0)), 
list ( 


hidden = c(200), 
input_dr = c(.2), 


微调 自动 编码 器 模型 


4.5 


hidden dr = c(0)), 
list( 
hidden = c(400), 
input_dr = c(.2), 
hidden_dr = c(0)), 
list ( 
hidden = c(400), 
input_dr = c(.2), 
hidden dr = c(.5)), 
list ( 
hidden = c(400, 200), 
input_dr = c(.2), 
hidden dr = c(.25, .25)), 
list ( 
hidden = c(400, 200), 
input_dr = c(.2), 
hidden dr = c(.5, .25))) 


fn 





， 我 们 对 这 些 超 参数 循环 一 个 5 折 交 叉 验 证 来 训练 所 有 的 模型 。 因 
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为 我 们 



































正在 训练 6X5 FE 30 个 模型 ， 





有 些 带 有 数 百 个 隐藏 4 








增加 的 速度 来 运行 , 我 们 把 H20 集群 改变 到 一 个 5 核 12G 内 存 的 机 器 上 ), 所 以 这 





要 花 上 一 些 时 间 来 完成 。 


fm «- lapply(hyperparams, function(v) { 


lapply(folds, function(i) { 


h20.deeplearning( 


X xnames, 


training frame 


l; 
l; 


h2odigits.train[-i, 


validation frame h2odigits.train[i, 
"Tana"; 

autoencoder TRUE, 

hidden = v$hidden, 

30, 


sparsity_beta 


activation 





epochs 


0, 
input _ dropout ratio 


v$input_dr, 
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hidden dropout ratios = v$hidden dr, 
d= 0; 
12 =O 


























接 下 来 , 我 们 对 结果 进行 循环 并 对 验证 数据 提取 MSE, 这 里 是 没有 用 在 交 义 验 
证 中 的 单个 折 。 




















fm.res «- lapply(fm, function(m) { 





sapply(m, h2o.mse, valid = TRUE) 
}) 























我 们 把 结果 合并 到 一 个 数据 表格 里 ， 观 察 并 画 出 各 折 交 叉 验 证 的 性 能 。 








fm.res <- data.table ( 
Model = rep(pasteO("M", 1:6), each = 5), 


MSE = unlist(fm.res)) 





head(fm.res) 





Model MSE 
Ts M1 0.014619734 
2: M1 0.014655749 
3: M1 0.014651761 
4: M1 0.014310286 
5: M1 0.014303792 
6: M2 0.006781414 











最 后 ， 我 们 做 出 结果 的 箱 型 图 ， 来 看 它们 是 如 何 扩散 的 ， 或 者 是 否 有 哪 一 个 交 
叉 验证 的 运行 特别 反 第 。 结 末 如 图 4-9 所 示 ， 似 乎 交叉 验证 中 每 一 折 的 MSE 都 是 
相当 接近 的 ， 这 样 均 值 /中 位 数 就 是 相当 合理 的 数据 汇总 。 






























































p.erate <- ggplot(fm.res, aes(Model, MSE)) 十 
geom boxplot() 十 


stat summary(fun.y = mean, geom = "point", colour 





theme classic() 


print (p.erate) 
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MSE 





0.0150 


0.0125 


0.0100 


0.0075 
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"red") + 


计算 每 个 模型 的 平均 MSE 并 从 最 小 到 最 大 进行 排序 ， 下 面 是 我 们 得 到 的 结果 。 


fm.res[, 


Ov OF WN rp 


Model 








. (Mean MSE 


Co. O C GOG CO g 








Gl 


Mean MSI 


.006261764 
.006276417 
.006725956 
.007768764 
.007797575 
.014508264 





mean (MSE)), 





Model] [order (Mean MSI 


E)] 
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看 起 来 第 四 组 超 参 数 提供 了 最 低 的 交叉 验证 MSE. 第 四 组 超 参数 是 一 个 相当 复 
杂 的 模型 ， 有 400 个 隐藏 神 经 元 , 但 是 也 采用 了 20% 输 入 变量 丢弃 以 及 在 每 一 次 迭 
代 中 50% 隐 藏 神经 元 丢弃 的 正则 化 ， 而 且 这 一 组 真正 优 于 (虽然 只 是 轻微 的 ) 有 着 
相同 模型 复杂 性 但 没有 任何 隐藏 层 丢 弃 的 第 三 组 超 参数 。 尽 管 没 有 差 太 多 ， 有 者 第 
二 层 200 个 隐藏 神经 元 的 深度 模型 的 性 能 差 于 浅 层 模 型 。 




























































































选 好 了 最 佳 模型 ， 使 用 第 四 组 超 参数 ， 我 们 能 用 所 有 的 训练 数据 和 实际 的 测试 
数据 重新 运行 模型 。 

















fm.final <- h2o.deeplearning ( 
x = xnames, 
training frame = h2odigits.train, 
validation frame - h2odigits.test, 
activation = "Tanh", 


= 


autoencoder = TRUE, 





hidden = hyperparams[[4]]S$hidden, 

epochs = 30, 

sparsity beta = 0, 

input dropout ratio = hyperparams[[4]]$input_dr, 
hidden dropout ratios = hyperparams[[4]]$hidden dr, 


11 = 0, 
12 = 0 
) 
fm.final 


Training Set Metrics: 




















MSE: (Extract with 'h2o.mse') 0.005880221 





H20AutoEncoderMetrics: deeplearning 


** Reported on validation data. ** 


Validation Set Metrics: 











MSE: (Extract with 'h2o 








.mse') 0.006072476 


























我 们 可 以 看 到 ， 那 些 根 本 没有 用 在 训练 中 的 测试 数据 的 MSE 和 训练 数据 中 的 
MSE 是 相当 接近 的 ,尽管 稍微 有 些 差 ， 而 且 在 这 个 情况 下 ， 实 际 上 也 稍 少 于 来 自 交 
又 验证 的 MSE 的 估计。 在 某 种 程度 上 说 ， 我 们 搜索 到 了 一 个 合理 的 超 参数 集 ， 这 

































































个 模型 现在 是 优化 了 的 、 验 证 过 的 并 做 好 了 使 用 的 准备 。 

















练 许多 不 同 模型 所 用 的 时 间 之 间 ， 








据 非常 大 ， 为 了 加 速 计算 ， 使 用 所 有 数据 的 一 个 随机 子 集 来 探索 最 优 模 型 是 很 有 大 





在 实践 中 ,在 使 用 不 同 模型 或 不 同 超 参数 集 获 得 更 好 性 能 的 可 能 性 与 运行 和 训 





为 了 平衡 这 种 取舍 ， 通 常 是 很 困难 的 。 有 时 候 数 
































助 的 。 对 于 本 书 来 说 ， 比 起 那些 常用 于 深度 学 习 的 、 通 常 有 着 数 百 万 个 或 数 亿 个 样 
例 的 数据 集 ， 我们 所 用 的 这 个 案例 数据 集 是 相当 小 的 。 然 而 ， 用 在 这 里 的 方法 可 以 
放大 到 更 大 的 数据 集 上 ， 只 是 会 多 花 上 一 些 时 间 。 值 得 注意 的 是 ， 尽 管 对 这 些 相对 
小 的 数据 集 ， 我 们 用 相当 简单 的 模型 看 到 了 好 的 性 能 ， 更 大 的 数据 集 可 以 从 复杂 模 
型 中 获 益 更 多 ， 而 且 提 供 了 足够 的 数据 去 支持 学 习 更 复杂 的 结构 。 























4.6 小结 





自动 编码 器 ) 来 学 习 数据 的 深度 的 










































































本 章 介 绍 了 有 监督 学 习 和 无 监督 学 习 的 区 别 ， 包 括 如 何 使 用 无 监督 学 习 《〈 比 如 








或 隐藏 的 特征 。 这 些 隐藏 的 特征 可 用 于 它们 自身 ， 















































比如 更 好 地 理解 数据 的 结构 ， 或 者 为 了 其 他 的 应 用 。 目 动 编码 器 和 无 监督 学 习 的 两 




















fiis LE HI ERRA TS CP 
杂 的 、 通 常 是 有 1! 
































1 如 离 群 点 检测 、 金 融 欺诈) 以 及 去 预先 训练 更 复 





监督 的 模型 ， 比 如 深度 神经 网 络 。 在 第 5 章 中 ， 为 了 开发 预测 模型 








《就 是 说 ， 有 监督 地 学 习 )， 我 们 将 学 习 如 何 训练 并 建立 深度 神经 网 络 。 
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在 本 章 中 ， 我 们 将 探索 如 何 训练 并 建立 深度 预测 模型 。 我 们 将 关注 前 饥 神 经 网 
络 ， 它 可 能 是 最 常见 的 一 个 神经 网 络 类 型 ， 是 一 个 良好 的 起 点 。 
































本 章 将 涉及 下 列 主题 。 

















。 深度 前 馈 神 经 网 络 的 入 门 





e 常见 的 激活 函数 : 整流 器 、 双 曲 正 切 和 maxout 
。 选取 超 参 数 


。 从 深度 神经 网 络 训练 并 预测 新 数据 



































。 用 例 一 一 训练 一 个 深度 神经 网 络 用 于 自动 分 类 














在 本 章 中 ， 我 们 不 会 使 用 任何 新 的 R 包 。 唯 一 的 要 求 是 获取 checkpoint.R 














文件 ， 为 剩余 要 显示 的 代码 建立 R 环境 并 初始 化 H20 集群 。 这 些 都 可 以 用 下 面 的 
代码 来 完成 。 


source ("checkpoint.R") 
options (width = 70, digits = 2) 
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cl <- h2o.init( 


max mem size - "12G", 
nthreads = 4) 


5.1. 深度 前 馈 神经 网 络 入 门 














深度 前 馈 神 经 网 络 的 设计 是 去 近似 一 个 函数 从 , 这 个 函数 把 一 些 输入 变量 x 的 


集合 映射 到 一 个 输出 变量 y。 我 们 称 它 为 深度 前 馈 神 经 网 络 是 因为 来 





























输入 的 信息 

















流 要 穿 过 直到 输出 为 止 的 每 一 个 相继 的 层 ， 而 没有 任何 反馈 和 递归 循环 〈 既 包括 前 
向 也 包括 后 向 连结 的 模型 被 称 为 循环 神经 网 络 Crecurrent neural networks) ) 。 




















深度 前 馈 神 经 网 络 适 用 非常 广泛 ， 而 且 对 于 诸如 图 像 分 类 这 样 的 应 用 特别 有 
用 。 一 般 来 说 ， 在 有 一 个 明确 定义 的 输出 时 (图 像 中 包含 什么 数字 ， 是 不 是 有 人 在 
上 楼 梯 、 下 楼 梯 还 





































































































是 在 平地 行走 ， 患 病 / 不 患 病 ， 等 等 )， 前 馈 神 经 网 络 对 于 预测 和 
分 类 是 很 有 用 的 。 在 这 些 情 况 中 ， 没 有 特别 的 对 于 反馈 循环 的 需求 。 循 环 神经 网 络 
对 那些 反馈 循环 很 重要 的 情况 是 有 用 的 ， 比 如 说 自然 语言 处 理 。 但 是 这 超过 了 本 书 
的 范围 ， 本 书 关注 的 是 训练 标准 的 预测 模型 。 






















































































我 们 可 以 通过 把 各 层 或 各 函数 链接 在 一 起 来 构建 深度 前 馈 神经 网 络 。 例 如 ， 如 




















图 5-1 中 有 四 个 隐藏 层 的 网 络 。 


























每 个 前 后 相继 的 层 学 习 一 个 不 同 的 函数 ， 最 后 将 隐藏 层 映 射 到 输出 。 如 果 一 层 


中 包括 了 足够 多 的 隐藏 神经 元 ， 它 可 以 将 许多 不 同类 型 的 函数 近似 到 到 
度 。 即 使 从 最 后 的 隐藏 层 到 输出 的 映射 是 带 有 学 习 到 权重 的 线性 映射 ， 通 过 先 运用 





























想 的 精确 程 




















从 输入 层 到 隐藏 层 的 非 线性 变换 ， 前 饥 神 经 网 络 也 能 近似 非 线性 函数 。 


习 的 一 种 关键 力量 
这 要 求 必须 指定 函数 形式 。 在 深度 前 馈 神 经 网 
隐藏 层 到 输出 的 变换 是 同时 学 习 的 。 本 质 上 ， 模 型 学 习 的 是 函数 形式 以 及 权重 。 在 























。 例 如 ， 在 线性 回归 中 ， 模 型 学 习 了 从 输入 到 输出 的 权重 。 但 是 
络 中 ， 从 输入 层 到 隐藏 层 的 变换 和 从 












































这 是 深度 学 

















实践 中 ， 虽 然 模 型 不 可 能 学 习 真 正 的 生成 模型 (generative model)， 但 是 它 能 〈 非 


常 接近 的 ) 近似 真正 的 模型 。 隐 成 神经 元 越 多 ， 近似 就 越 接近 ，。 








因此 对 于 实践 来 说 ， 
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如 果 没 有 理论 上 的 准确 性 ， 那 它 的 目标 就 是 模型 学 习 函 数 的 形式 。 





5-1 以 有 向 无 环 图 的 形式 展示 了 模型 的 示意 图 。 作 为 一 种 函数 表示 ， 来 自 输 
AX 到 输出 的 全 部 映射 是 一 个 多 层 函 数 。 第 一 个 隐藏 层 是 Mf OX 1,41), 第 二 
个 隐藏 层 是 古 =f 中 (Hw2,as)， 以 此 类 推 。 这 些 层 允许 复杂 的 函数 和 变换 从 相对 简单 
的 形式 开始 建立 。 






































Output 


Hidden 4 


Hidden 3 


Hidden 2 


Hidden 1 


Input 
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每 一 层 的 权重 要 通过 机 器 来 学 习 ， 但 也 依赖 于 所 做 的 决策 ， 比 如 说 在 每 一 层 
应 该 有 和 多少 个 隐藏 神经 元 以 及 应 该 用 什么 样 的 激活 函数 ， 这 是 要 在 5.2 市 中 深入 探 
讨 的 主题 。 模 型 必须 要 确定 的 另 一 个 关键 部 分 是 成 本 或 损失 函数 。 两 个 最 常用 的 成 
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AK eR Zt) | FES XU Ccross-entropy) 和 二 次 的 函数 均 方 误差 (MSE)。 


5.2 ”常用 的 激活 函数 一 一 整流 器 、 双 曲 正 切 和 maxout 








激活 函数 决定 了 输入 层 和 隐藏 层 之 间 的 映射 。 对 于 怎样 激活 神经 元 ， 它 定义 了 
函数 形式 。 例 如 ， 一 个 线性 的 激活 函数 可 以 定义 为 fx)=x*， 此 时 神经 元 的 值 就 是 原 
始 输 入 x 乘 以 学 习 的 权重 ， 这 是 一 个 线性 函数 。 线 性 激活 函数 如 图 5-2 上 侧 的 图 形 
所 示 。 确 定 线性 激活 函数 的 问题 是 , 这 种 激活 函数 不 允许 学 习 任何 非 线性 函数 形式 。 
之 前 ， 我 们 曾经 使 用 过 双 曲 正切 /oo=tanhCo 作 为 激活 函数 。 双 曲 正切 在 某 些 情 况 下 
表现 很 好 ， 但 它 有 一 种 潜在 的 局 限 ， 就 是 在 很 小 或 者 很 大 的 取 值 上 它 就 会 饱和 ， 这 
种 情况 如 图 5-2 中 间 的 图 形 所 示 。 
















































































































































































可 能 目前 最 流行 的 激活 函数 被 称 为 整流 器 ， 可 以 作为 优良 的 首选 (Nair, V., and 
Hinton, G. E. (2010))。 目 前 有 不 同 的 整流 器 类 型 ， 但 最 常用 的 是 线性 整流 器 ， 由 函 
数 Ko)=max(0.) 定 义 。 在 某 个 闪 值 之 下 ， 线 性 整流 器 是 平坦 的 ， 然 后 变 成 线性 函数 ， 
一 个 例子 显示 如 图 5-2 底部 的 图 形 所 示 。 尽 管 它们 形式 简单 ， 线 性 整流 器 还 是 提供 
了 一 个 非 线性 变换 ， 而 且 足 够 的 线性 整流 器 能 用 来 近似 任意 的 非 线 性 函数 ， 这 和 只 
使 用 线性 激活 函数 的 情况 不 同 。 





























































































































最 后 一 类 要 讨论 的 激活 函数 是 maxout Goodfellow, I. J., Warde-Farley, D., Mirza, 
M., Courville, A., and Bengio, Y. (2013)). maxout 单元 取 它 输入 中 的 最 大 值 ， 因 为 通 
常 要 在 加 权 之 后 , 所 以 并 不 是 有 最 高 值 的 输入 变量 总 会 赢 。maxout 激活 函数 再 结合 
丢弃 似乎 表现 特别 好 。 

































































出 于 本 章 的 写作 目的 ， 我 们 将 重点 关注 线性 整流 器 。 这 既是 因为 它 是 一 种 好 
的 、 表 现 优异 的 缺 省 值 ， 也 是 因为 在 前 面 的 章节 中 我 们 已 经 展示 过 了 双 曲 正切 函 
数 的 使 用 。 
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一 个 模型 的 参数 通常 是 指 诸如 权重 或 者 偏 置 / 截 距 参 数 这 样 的 内 容 。 但是， 还 有 
许多 其 他 的 参数 必须 被 设置 在 偏 移 上 而 且 没 有 在 模型 的 训练 过 程 中 被 优化 或 被 学 
到 。 这 些 参数 有 时 被 称 为 超 参数 。 事 实 上 ， 甚 至 模型 的 选择 〈 例 如 深度 前 馈 神 经 网 
络 、 随 机 森林 或 者 支持 向 量 机 ) 也 能 被 视 为 一 种 超 参 数 。 


























































































































即使 我 们 已 经 以 某 种 方式 确定 了 深度 前 馈 神 经 网 络 是 最 佳 的 建 模 策 略 ， 依 然 还 
有 很 多 超 参数 需要 设置 。 这 些 超 参数 必须 明确 地 要 用 户 指定 或 者 使 用 由 软件 所 提供 
的 缺 省 值 隐 含 地 指定 。 
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为 超 参数 准备 的 值 在 准确 度 和 模型 的 训练 速度 上 可 以 有 戏剧 性 的 效果 。 事 实 
上 ,我 们 已 经 见 过 尝试 不 同 超 参数 的 例子 ， 比 如 尝试 一 层 中 隐藏 神经 元 的 个 数 或 者 
不 同 的 层 数 。 但 是 ， 其 他 超 参 数 也 会 影响 性 能 和 速度 。 例 如 ， 在 下 列 代 码 中 ， 我 们 
建立 R 环境 ， 载 入 我 们 曾经 处 理 过 的 MNIST 数据 (手写 数字 的 图 像 ) 并 且 运 行 两 
个 预测 模型 ， 只 是 变化 学 习 率 。 

























































































source ("checkpoint.R") 
options (width = 70, digits = 2) 


cl <- h20o.init( 
max mem size - "12G", 
nthreads = 4) 


$4 data setup 
digits.train «- read.csv("train.csv") 


digits.trainSlabel <- factor(digits.train$1abel, levels = 0:9) 





h2odigits «- as.h2o( 
digits.train, 


destination frame = "h2odigits") 
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i «- 1:32000 

h2odigits.train «- h2odigits[i, ] 
itest «- 32001:42000 

h2odigits.test «- h2odigits[itest, ] 


xnames <- colnames (h2odigits.train) [-1] 





system.time(exl <- h2o.deeplearning( 
X = xnames, 
y = "label", 
training frame- h2odigits.train, 
validation frame - h2odigits.test, 
activation = "RectifierWithDropout", 
hidden c(100), 
epochs = 10, 





adaptive rate - FALSE, 


rate = .001, 
input dropout ratio = 0, 
hidden dropout ratios - c(.2) 


system.time(ex2 <- h2o.deeplearning( 
X = xnames, 
y = "label", 
training frame- h2odigits.train, 
validation frame - h2odigits.test, 
activation = "RectifierWithDropout", 
hidden c(100), 
epochs = 10, 





adaptive rate - FALSE, 
rate = .01, 
input dropout ratio = 0, 


hidden dropout ratios - c(.2) 
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PAE, ex1 相 比 ex2 在 训练 时 间 上 花 了 1.34 倍 。 打 印 每 个 模型 也 显 
示 出 了 相当 大 的 性 能 差异 。 书 中 为 了 市 约 空 间 , 我 们 忽略 了 大 部 分 来 自 exl 和 ex2 
的 输出 ， 只 把 测试 集 的 度量 显示 出 来 。 

















ex1 


Test Set Metrics: 








Metrics reported on full validation frame 








MSE: (Extract with 'h2o.mse') 0.03326067 

R^2: (Extract with 'h20.r2') 0.9960457 

Logloss: (Extract with 'h20o.logloss') 0.2021435 

Confusion Matrix: Extract with 'h20.confusionMatrix(«model», < 
data»)') 


~ 
































XO X1 X2 X3 X4 X5 X6 X7] X8 X9 Error 
0 984 0 1 0 13 2 6 2 0.02670623 
1 Q" “LE9 5 2 1 5 5 0 0.01755926 
2 7 1 920 8 5 6 7 7 2 0.04465213 
3 3 5 5 1006 IL x3 1 7 7 1 0.04099142 
4 0 7 3 0 896 2 5 2 4 13 0.03862661 
5 6 2 4 17 5 835 7 1 10 5 0.06390135 
6 5 2 1 0 6 8 966 1 2 0 0.02522704 
7 2 2 8 7 3 1 0 1027 0 8 0.02930057 
8 1 1.11 3 7 4 15 1 2 922 3 0.04850361 
9 5 3 1 7 18 6 2 20 2 932 0.06425703 
Totals 1013 1152 951 1054 939 884 1002 1074 965 966 0.03930000 
ex2 


Test Set Metrics: 








Metrics reported on full validation frame 
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MSE: 





( 


Extract with 'h2o.mse') 0.1264212 





R^2: 


( 





Extract with 'h20.r2') 0.9849702 


Logloss: (Extract with 'h20o.logloss') 2.136629 


Confusion Matrix: Extract with 'h20.confusionMatrix(«model», < 




















data»)') 

X0 X1 X2 X3 X4 X5 X6 X7 X8 X9 Error 
0 938 0 5 11 3 19 T9 7 1 0.07220574 
业 0 1105 6 6 2 6 1 8 0 0.02985075 
2 18 7 757 54 20 9 47 36 10 0.21391485 
3 1 2 22 887 10 36 0 50 30 11 0.15443279 
4 1 7 0 1 854 7 T3 8 5 36 0.08369099 
5 11 6 4 45 16 767 8 5 29 1 0.14013453 
6 13 5 5 i. 6 63 887 5 6 0 0.10494450 
7 2 8 3 3 4 7 0 1024 0 7 0.03213611 
8 7 48 37 27 8 67 12 22 715 26 0.26212590 
9 7 3 3 12 47 22 T X589 11 732 0.26506024 
Totals 998 1191 842 1047 970 1003 2988 1323 814 824 0.13340000 


尽管 花 了 更 长 的 时 间 训 练 exi, 在 测试 数据 上 它 的 性 能 实质 上 比 ex2 更 好 。 更 















































高 的 学 习 率 是 要 更 快 一 些 但 是 也 牺牲 了 性 能 。 这 里 强 
因为 这 里 有 许多 超 参数 ， 所 以 关于 一 个 超 参 数 的 决策 不 是 孤立 于 其 余 超 参数 的 。 针 
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往往 会 降低 准确 性 ， 因 为 只 有 一 个 子 集 被 包括 到 任意 给 定 的 达 代 中 。 





一 个 最 重要 的 决定 与 模型 的 架构 有 关 。 例 如 ， 关 于 应 该 有 多 少 层 ， 在 和 





























调 一 个 需要 做 出 的 决策 。 但 是 





对 这 一 点 的 一 个 例子 是 正则 化 。 通 常 ， 相 对 更 大 或 者 更 复杂 的 模型 结合 了 许多 隐藏 
经 元 和 可 能 的 多 个 层 来 用 ， 选 择 那 些 往往 会 提高 准确 度 《〈 至 少 在 训练 数据 中 ) 并 
降低 速度 的 模型 。 然而 , 这 些 复杂 的 模型 通常 包括 某 种 形式 的 正则 化 ,比如 说 丢弃 ， 





























应 该 有 多 少 个 隐藏 神经 元 ， 是 否 应 该 有 跳跃 模式 (skipping patterns) 或 者 每 一 层 是 











否 只 有 顺序 连接 ， 等 等 ， 必 须要 做 出 这 样 的 决策 。 但 是 这 里 没有 可 以 遵循 的 简单 规 
则 来 确定 这 样 的 问题 。 
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在 缺乏 学 科 领 域 的 专长 或 者 先 验 模型 的 情况 下 ,设计 一 个 有 效 的 架构 要 求 一 些 


试验 和 误差 。 这 种 试验 和 误差 可 以 是 手动 也 可 以 是 自动 的 过 程 。 在 理论 上 ， 与 参数 
被 优化 一 样 ， 超 参数 也 能 被 优化 。 然 而 ， 在 实践 中 在 计算 上 这 或 许 是 不 可 行 的 ， 因 
为 这 要 求 运 行 模型 太 多 的 变化 形式 ， 其 中 每 一 个 形式 都 要 求 有 足够 的 计算 时 间 和 资 


















































源 来 完成 。 
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里 解 每 个 超 参数 是 什么 样 有 助 于 局 发 我 们 的 决定 。 例 如 ， 如 果 我 们 从 一 个 模 





型 开始 ， 它 的 性 能 比 可 接受 的 超 参数 更 差 ， 应 该 改变 成 在 模型 中 允 讨 


























:更 大 的 容量 


和 灵活 性 ， 例 如 增加 更 多 的 隐藏 神经 元 、 隐 藏 神经 元 额外 的 层 、 更 多 的 训练 轮 数 
等 。 如 果 在 训练 数据 和 测试 数据 上 的 模型 性 能 有 较 大 差异 ， 或 许 表 明 模 型 过 拟 合 
了 数据 ， 这 种 情况 下 我 们 可 以 调整 超 参 数 ， 降 低 容 量 或 者 加 上 更 多 的 正则 化 。 在 
























































茶 些 情况 下 ， 我 们 可 以 要 求 更 多 的 数据 去 支持 拟 合 一 个 需要 适当 预 涡 














1 结果 的 更 复 


杂 的 模型 。 在 第 6 章 中 ， 我 们 将 讨论 一 些 改善 模型 架构 的 方法 (包括 更 分 析 化 的 











AE) 的 更 多 细 市 。 
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在 本 节 ， 我 们 将 学 习 如 何 训练 深度 神经 网 络 并 使 用 它们 来 生成 新 数据 上 的 预 
测 。 用 于 本 节 的 例子 将 使 用 我 们 曾经 处 理 过 的 活动 数据 ， 下 列 代码 简单 地 建立 了 


























数据 。 


use.train.x «- read.table("UCI HAR Dataset/train/X t 
use.test.x «- read.table("UCI HAR Dataset/test/X tes 


use.train.y <- read.table("UCI HAR Dataset/train/y t 











use.test.y «- read.table("UCI HAR Dataset/test/y tes 


use.train «- cbind(use.train.x, Outcome = factor(use 


use.test «- cbind(use.test.x, Outcome = factor(use.t 








rain.txt") 
Ca txt) 


rain. txt") 





te CXE T DX 


.train.y)) 


est.y)) 
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use.labels <- read.table("UCI HAR Dataset/activity labels.txt") 


h20activi 
.train, 


tination frame 


h2oactivity.test <- 


.tes 


=r 








tination frame 


ty.train «- as.h2o( 


= "h2oactivitytrain") 





as.h2o ( 


= "h2oactivitytest") 





我 们 已 经 学 习 了 训练 一 个 深度 神经 网 络 的 各 个 组 成 部 分 。 就 像 对 自动 编码 器 的 


























处 理 一 样 ， 我 们 使 用 n20. deeplearning O HAL, 1 
Bo LAW, 我 们 引入 了 测试 数据 来 自动 地 在 j 
为 了 显示 在 新 数据 上 如 何 生 成 预测 , 我 们 不 
调用 中 。 这 里 使 用 的 激活 函数 是 线性 整流 器 ， 带 有 在 输入 变量 上 的 “20%) 和 隐藏 
神经 元 上 的 《50%) 丢弃 。 这 个 小 例子 是 只 有 50 个 隐藏 
























































日 是 对 参数 x 和 y 都 指定 变量 
| 练 和 测试 数据 上 得 到 性 能 上 度量。 但是， 
巴 它 包括 在 h20.deeplearning() ÉI 
































一 个 浅 层 网 络 。 成 本 (损失) PRB AR o 


mtl <- h2o.deeplearning ( 


Si 


y = "Outcome", 


colnames(use.train.x), 


training frame= h2oactivity.train, 


activation = 
hidden = c(50), 
epochs = 10, 
loss = 


input_dropout_ 





hidden dropout ratios = 


export weights and biases - 








ratio - 





"RectifierWithDropout", 


"CrossEntropy", 


:2 
5) , , 
TRUE 


eG 





经 元 和 10 次 训练 迭代 的 





E R 操作 台 简 单 地 键入 名 称 ， 我 们 看 到 了 存储 的 对 象 。 第 一 个 信息 是 关于 模型 














类 型 的 。 结 果 有 6 个 离散 的 水 平 , 所 以 要 用 到 一 个 多 项 式 模型 。 模 型 一 共 包 括 28 406 
个 权重 /偏差 (biase)。 偏 差 就 像 截 距 或 者 常数 的 偏 移 。 因 为 这 是 一 个 前 馈 神 经 网 络 ， 
只 在 相 邻 的 层 之 间 有 权重 。 输 入 变量 没有 偏差 ， 但 隐藏 神经 元 和 输出 有 。28 406 个 
权重 的 构成 中 有 来 自 于 输入 变量 和 第 一 层 隐藏 神经 元 之 间 的 $561 * 50 = 28 050$ 个 
权重 ,来自 于 隐藏 神 经 元 和 输出 之 间 的 $50 * 6 = 300$ 个 权重 (6 是 因为 结果 中 有 六 
个 不 同 的 水 平 ) 以 及 来 自 于 隐藏 神经 元 的 50 个 偏差 和 来 自 输出 的 6 个 偏差 。 
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输出 也 显示 了 层 数 和 每 一 层 中 单元 的 个 数 、 每 一 个 单元 的 类 型 、 丢 弃 的 百分比 
以 及 其 他 的 正则 和 超 参 数 信 息 。 











mti 
Model Details: 











H20MultinomialModel: deeplearning 
Model ID: DeepLearning model R 1451894068318 16 


Status of Neuron Layers: predicting Outcome, 6-class classification, 











multinomial distribution, CrossEntropy loss, 28,406 weights/ 
biases, 406.9 


KB, 73,520 training samples, mini-batch size 1 


layer units type dropout 11 12 mean rate 
1 1 561 Input 20.00 $ 
2 2 50 RectifierDropout 50.00 $ 0.000000 0.000000 0.001891 
3 3 6 Softmax 0.000000 0.000000 0.004912 
rate RMS momentum mean weight weight RMS mean bias bias RMS 
1 


2 0.002408 0.000000 0.000172 0.062088 0.347545 0.114483 
3 0.015856 0.000000 -0.009241 0.755695 -0.029887 0.294392 








接 下 来 的 一 组 输出 报告 了 训练 数据 上 的 性 能 上 度量， 包括 均 方 误差 ( 越 低 越 好 )、 
$R^2$ 越 高 越 好 〉 以 及 对 数 损失 ( 越 低 越 好 )。 

















H20MultinomialMetrics: deeplearning 





** Reported on training data. ** 


108 第 5 章 训练 深度 预测 模型 


Description: Metrics reported on temporary 


training frame 


Training Set Metrics: 








Metrics reported on temporary 








MSE: 





p. 





R^2: (Extract with 


: (Extract with 


Logloss 


Extract with 





'h20.mse') 
'"h2o.r2') 


(load-balanced) 


0.023 
0.99 


'h20.10gloss') 








0.082 


(load-balanced) 


training frame 





最 后 ， 代 码 打 印 出 来 一 个 混 消 和 矩阵， 显示 了 真实 输出 对 比 预 测 输 出 的 情况 。 行 








H 





FPF 显示 的 是 观测 的 输出 ， 列 中 




















据 结 果 水 平 显示 了 误差 率 。 


Confusi 
train =TRU 





on Matrix: 


E)') 











Extract with 








PF 显 示 的 是 预测 的 输出 。 对 角 线 标示 了 正确 的 分 类 并 根 


"h20.confusionMatrix(<model>, 














X1 X2 
1 1216 10 
2 3 1070 
3 2 11 
4 0 1 
5 0 0 
6 0 0 
Totals 1221 1092 
Hit Ratio Table: 

= TRUE) ' 





0 
973 


0 
1236 
146 
0 
1382 


40 
1228 
0 
1268 


Oo Oo 0o ODO Oo 


0 
1407 
1416 





Or 0€". 16€. 103.* 1€. «C 


Error 
Qs 
.0028 
.0132 
.0389 
.1063 
.0000 
.0302 


0082 





10 / 
9s y 
13 
50 / 
146 / 
0 / 
222 


Rate 
1,226 
1,073 
/ 986 
1,286 
1,374 
1,407 
7,352 


Extract with 'h2o.hit ratio table («model»,train 








Top-6 Hit Ratios: 


k 
1 T 
2 2 


hit_ratio 
0.969804 
0.999728 
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3 3 1.000000 
4 4 1.000000 
5 5 1.000000 
6 6 1.000000 


我 们 能 使 用 h2o.deepfeatures () 函数 提取 并 查看 模型 的 特征 ， 指 定 模 型 、 
数据 以 及 我 们 想 要 提取 的 层 数 。 下 列 代 码 提取 了 特征 并 查看 了 开头 几 行 。 默 认 情 况 
下 结果 也 包括 在 内 ,注意 特征 中 的 零 , 它们 在 结果 中 是 因为 我 们 使 用 了 线性 整流 器 ， 
低 于 零 的 值 被 删 为 零 。 
















































































f <- as.data.frame(h2o.deepfeatures(mtl, h2oactivity.train, 1)) 
f[i:t0, I:5] 
Outcome DF.L1.Cl DF.L1.C2 DF.L1.C3 DF.L1.C4 





工 3 0.00 5.9 0.091 2.1 
2 5 0.00 4.7 0.000 1.7 
3 5 0.00 4.4 0.102 145 
4 5 0.00 4.9 0.000 由 9 
5 5 0.00 5.0 0.000 1.8 
6 5 0.00 4.9 0.000 2.0 
7 5 0.00 4.9 0.000 1.6 
8 5 0.00 4.6 0.000 qj 8 
9 5 0.00 5.0 0.000 1.6 
10 5 0.13 5.1 0.000 1.23 


就 像 提 取 特 征 一 样 ， 我 们 也 能 提取 每 一 层 的 权重 。 下 列 代码 提取 了 权重 并 做 出 
一 张 热 图 ,这样 我 们 就 能 看 到 这 里 是 否 存在 确定 的 输入 变量 对 特别 的 神经 元 有 着 更 
高 权重 的 清晰 模式 。 



































wl <- as.matrix(h2o.weights (mt1, 1)) 


## plot heatmap of the weights 

tmp <- as.data.frame(t(w1)) 

tmpSRow <- 1:nrow (tmp) 

tmp <- melt (tmp, id.vars = c("Row")) 
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p.heat «- ggplot(tmp, 
aes(variable, Row, fill = value)) + 
geom tile() 十 
scale fill gradientn(colours = c("black", "white", "blue")) + 
theme classic() + 





theme(axis.text = element blank()) + 

xlab("Hidden Neuron") 十 

ylab("Input Variable") 十 

ggtitle("Heatmap of Weights for Layer 1") 
print (p.heat) 





























1 图 5-3 可 见 ， 对 于 特定 神经 元 主要 由 少数 输入 构成 的 效应 ， 似 乎 没有 特别 清 
楚 的 模式 。 









































对 于 所 有 的 复杂 性 来 说 ， 一 旦 模型 被 训练 为 前 馈 神 经 网 络 ， 就 直接 评分 并 用 于 
生成 数据 上 的 预测 。 这 里 有 内 置 函数 来 完成 这 一 点 ， 但 为 了 更 好 地 理解 模型 ， 我 们 
将 手动 处 理 一 个 例子 。 


















































就 像 之 前 所 注意 的 那样 ， 前 馈 神经 网 络 是 由 各 个 layering 函数 一 起 构建 的 。 
我 们 已 经 对 第 一 层 提取 了 权重 。 但 是 ， 为 了 构建 第 一 个 隐藏 层 的 神经 元 ， 我 们 还 需 
要 输入 数据 和 偏差 。 因 为 需要 在 一 整 列 当中 加 入 一 些 常数 项 来 构建 深度 特征 (即使 
是 偏差 也 要 存储 在 一 个 向 量 中 ， 每 个 隐藏 神经 元 有 一 个 仿 差 )， 我 们 复制 偏差 并 把 
它 转 化 到 一 个 维 数 与 输入 数据 相 匹配 的 矩阵 中 。 
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## input data 


d «- as.matrix(use.train[, -562]) 


## biases for hidden layer 1 neurons 
bl <- as.matrix(h20o.biases (mtl, 1)) 
b12 <- do.call(rbind, rep(list(t(b1)), nrow(d))) 
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第 一 层 权 重 的 热 图 














0.4 
0.2 
0.0 
-0.2 

















隐藏 神经 元 


图 5-3 





现在 我 们 能 对 第 一 层 的 隐藏 神经 元 构建 特征 。 首 先 ， 我 们 需要 把 输入 数据 的 每 
一 列 标准 化 ， 在 R 中 对 数据 逐 列 《〈 和 矩阵 的 第 二 个 维度 ) 运用 scale () 函数 来 实现 
这 一 点 。 


d.scaled <- apply(d, 2, scale) 


接 下 来 ， 我 们 用 之 前 提取 的 权重 右 乘 以 标准 化 的 数据 ， 然 后 再 加 上 偏差 矩阵 。 
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d.weighted 


<- d.scaled $*$ t(wl) + b12 











d.weighted 


最 后 ， 因 为 我 们 使 有 

















d.weighted. 








<- d.weighted * (1 - .5) 


因为 在 隐藏 属 F 引 入 了 丢弃 ， 我 们 需要 运用 一 种 修正 。 这 仅仅 是 一 种 基于 隐藏 
单元 比例 的 乘法 修正 ， 可 以 被 包括 到 任何 氨 代 中 一 一 即 ，1- 丢 弃 比 例 。 



































rectifier <- apply(d.weighted, 2, pmax, 0) 



































的 是 线性 整流 器 ,对 每 一 列 , 我 们 只 想 取 零 或 高 于 零 的 值 。 
在 R 中 对 加 权 数 据 逐 列 运用 pmax () 函数 ， 我 们 实现 了 这 个 结果 。 











我 们 把 处 理 结果 和 由 H20 提取 的 特征 进行 比较 ， 能 够 检查 它 是 否 正确 。 我 们 








使 用 all.equal () 


my 
ARE. 


all.equal ( 

































































as.numeric(f[, 2]), 











d.weighted.rectifier[, 1], 
check.attributes = FALSE, 
use.names = FALSE, 
tolerance = 1e-04) 








元 一 样 ， 乘 以 权重 并 加 上 4 























用 到 原始 数据 上 的 ， 而 是 运用 到 我 们 在 第 一 层 所 构建 的 特征 上 的 。 和 以 前 一 样 
































们 需要 对 恰当 的 维度 扩展 偏差 。 


w2 <- as.matrix(h20.weights (mt1, 2)) 


b2 <- as.matrix(h20o.biases (mtl, 2)) 
b22 «- do.call(rbind, rep(list(t(b2)), nrow(d))) 


yhat «- d.weighted.rectifier $*$ t(w2) + b22 





用 相似 的 方式 ， 我 们 能 对 下 一 层 即 输出 层 提 取 权 重 和 偏差 。 就 像 创建 隐藏 4 
届 差 ， 我 们 创建 了 预测 的 结果 。 然 而 ， 这 些 操作 并 不 是 运 


» 


函数 进行 比较 ， 对 由 泽 点 运算 所 引起 的 轻微 数值 差异 给 予 一 些 


申 经 





我 
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为 了 构建 隐藏 神经 元 ， 我 们 使 用 线性 整流 器 激活 函数 。 对 于 输出 来 说 ， 我 们 使 
用 了 softmax 函数 ， 它 将 所 有 的 预测 标准 化 到 区 间 [0,.1] 当 中 并 确保 它们 的 和 等 于 
1， 就 像 是 一 种 预测 的 概率 。 我 们 知道 , EH normalizes 函数 一 是 因为 它 很 常用 ; 
二 是 因为 在 较 早 的 模型 输出 中 ，H2O 表明 softmax 是 链接 到 输出 层 的 函数 。 
softmax 函数 是 对 每 一 种 情况 来 定义 的 ， 而 且 是 指数 预测 除 以 这 种 情况 下 指数 预 
测 的 和 。 

































































yhat <- exp (yhat) 
normalizer «- do.call(cbind, rep(list(rowSums(yhat)), ncol 
(yhat))) 


yhat «- yhat / normalizer 











最 后 ， 通 过 使 用 which.max () 函数 添加 到 预测 数据 集 
率 的 输出 列 ， 我 们 能 得 到 预测 的 分 类 。 





选择 具有 最 高 预测 概 











» 





yhat «- cbind(Outcome = apply(yhat, 1, which.max), yhat) 





Steffi h2o.predict () 函数 ， 我们 也 能 提取 使 用 了 内 置 函 数 的 预测 ， 而 且 能 把 
这 些 预 测 和 我 们 手动 生成 的 预测 进行 比较 。 














yhat.h20 <- as.data.frame (h20.predict (mtl, newdata = h2oactivity. 


train)) 


xtabs(~ yhat[, 1] + yhat.h2o[, 1]) 


yhat.h2o[, 1] 


yhat[, 1] T: 2 3 4 5 6 
1 1216 0 0 0 0 0 
2 0 1122 0 0 0 0 
3 0 0 948 0 0 0 
4 0 0 0 1316 0 0 
5 0 0 0 0 1344 0 
6 0 0 0 0 0 1406 
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我 们 手动 地 处 理 完 全 匹配 了 H2O 的 结果 。 当 然 ， 在 实践 中 并 不 需要 手动 地 重 
新 实现 预测 函数 ， 而 且 展 示 手 动 处 理 的 代码 也 并 不 特别 具有 计算 效率 。 然 而 ， 通 过 
处 理 一 个 类 似 这 样 的 例子 ， 有 助 于 帮助 我 们 完全 搞 清 楚 什 么 样 的 部 分 进入 了 模型 以 
及 它们 是 如 何 使 用 的 。 如 果 我 们 有 许多 神经 元 的 隐藏 层 ， 处 理会 非常 相似 ， 只 要 对 
层 重 复 这 些 步 又 来 生成 特征 ， 而 且 总 是 建立 在 上 一 层 的 结果 之 上 。 
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对 于 用 例 ， 我 们 使 用 的 数据 是 百 万 歌曲 数据 集 (Milion Song Dataset) 的 一 个 
子 集 ,来自 于 加 州 大 学 欧文 分 校 在 线 数据 仓库 (University of California Irvine online 
dataset repository, Lichman, M. (2013)). 数据 集中 有 515 345 个 样 例 , 其 中 前 463 715 
个 用 作 训 练 样 例 ， 后 51 630 个 样 例 用 作 测 试 。 这 个 数据 集 的 第 一 列 包含 年 份 ， 其 余 
各 列 是 来 自 歌 曲 音色 的 特征 。 我 们 可 以 在 http://archive.ics.uci.edu/ml/ datasets/ 
YearPredictionMSD 下 载 并 解压 数据 。 我 们 的 目的 是 预测 每 首 歌 发 行 的 年 份 。 




























































































download.file( 
"http://archive.ics.uci.edu/ml/machine-learning-databases/00203/ 
YearPredictionMSD.txt.zip", destfile = "YearPredictionMSD.txt. 








zip") 
unzip("YearPredictionMSD.txt.zip") 





使 用 来 自 data.table 包 的 fread() 函数 ， 我 们 能 将 数据 读 入 到 及 中。 在 这 里 ， 
fread() 函数 比 read.csv() 函数 略 胜 一 筹 ， 因 为 它 要 快 三 个 数量 级 ， 在 带 有 固 
态 硬盘 的 高 端 台式 电脑 中 只 需要 耗费 30 秒 。 





















































d <- fread("YearPredictionMSD.txt", sep = ",") 























首先 ， 我 们 快速 看 一 下 结果 一 一 发 行 年 份 的 分 布 。 下 面 的 代码 创建 了 一 个 直方 
图 ， 如 图 5-4 所 示 。 
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p.hist <- ggplot(d[, .(V1)], aes(V1)) + 
geom histogram(binwidth = 1) + 
theme classic() + 
xlab("Year of Release") 


print (p.hist) 

















40000 

30000 
& 
T 20000 

10000 

0 一 
1920 1940 1960 1980 2000 
发 布 的 年 份 
图 5-4 





一 个 可 能 需要 关注 的 地 方 是 ， 相 对 极端 的 值 可 能 对 模型 产生 不 恰当 的 影响 。 通 
过 考虑 数据 分 布 并 取 平 方 根 ， 我 们 能 减少 这 种 影响 。 我 们 还 能 排除 掉 少 量 更 极端 的 
观测 ， 比 如 排除 最 小 和 最 大 的 各 0.5% 的 观测 (合计 1%)。 我 们 〈 用 下 列 代码 ) 检 
查 可 能 包括 1957 年 到 2010 年 之 间 年 份 的 分 位 数 。 








quantile(d$V1, probs = c(.005, .995)) 
0.5% 100% 
1957 2010 
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下 列 代码 整理 





d.train «- 


了 数据 并 为 H20 转化 了 训练 和 测试 数据 集 。 





d[1:463715][V1 >= 1957 & V1 <= 2010] 


d.test «- d[463716:515345] [V1 >= 1957 & V1 <= 2010] 


h2omsd.trai 
d.train, 


destinati 


h2omsd.test 
d.test, 


destinati 


我 们 可 以 建立 


summary (mO 
[1] 0.24 


cor( 
d.test$V1 


n «- as.h2o( 


on frame = "h2omsdtrain") 


<- as.h2o( 


on frame = "h2omsdtest") 





一 个 线性 回归 模型 ， 作 为 起 点 并 提供 某 种 基准 的 性 能 水 平 。 
<- Im(V1 ~ ., data = d.train))$r.squared 


predict (m0, newdata = d.test))^2 


[1] 0.23 


尽管 不 是 很 大 ， 线 性 回归 在 训练 数据 上 考虑 了 年 份 上 24% 的 变化 ， 而 在 测试 数 
据 上 则 是 23%。 这 个 结果 为 我 们 提供 了 一 个 和 前 馈 神经 网 络 进 行 对 照 的 基准 。 


























我 们 的 第 一 个 网 络 是 只 有 一 个 隐藏 层 的 浅 层 网 络 ， 它 是 相当 小 的 。 这 个 数据 集 
比 我 们 之 前 处 理 过 的 一 些 数 据 集 更 大 ,但 依然 是 足够 小 的 ， 可 以 轻松 地 对 它 进行 全 
部 处 理 。 为 了 做 出 在 全 部 数据 集 上 发 生 的 性 能 评分 ， 我 们 使 用 一 个 特别 的 值 ，0， 

















来 传递 给 Score _ 
在 10 核 H20 RR 
























































training samples 和 core validation samples 参数 。 


的 设备 上 ， 横 型 训练 用 了 79 秒 ， 使 用 system.time () 函数 记 





录 时 间 。 
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ml <- h2o.deeplearning 


X 


y 
training frame- h2om 


colnames (d)[-1], 
"x71; W n 


validation frame 


activation = "Rectif 
hidden = c(50), 
epochs - 100, 


input dropout 


ratio 


hidden dropo 


Score training samples 


Score valida 





diagnostics TRUE, 





export weigh 
variable importances 


) 











来 
网 络 即使 只 











ut ratios 


tion samples 


ts and biases 


( 


sd.train, 


h2omsd.test, 


ierWithDropout", 


0, 





TRUE, 


TRUI 





Gl 





于 这 个 简单 模型 的 结果 显示 了 它 比 线性 回归 有 明显 的 性 能 提升 。 前 馈 神 经 
有 一 个 带 有 50 个 隐藏 凶 




















经 元 的 层 ,在 测试 数据 中 考虑 了 发 布 年 份 的 32% 














的 变化 ， 高 于 使 用 线性 加 


归 的 2396. 








因为 这 个 模型 是 小 的 ， 而 且 隐 藏 凶 


者 其 他 的 正则 化 。 然 而 ,训练 数据 
对 了 2=0.32)， 表 明 某 种 正则 化 是 





mi 


Model Details: 



































经 元 比 输入 变量 还 少 ， 这 里 没有 使 用 丢弃 或 
和 测试 数据 之 间 的 性 能 上 的 一 些 矛盾 之 处 (了 R 拓 0.37 
有 帮助 的 。 























H20RegressionModel: deeplearning 

Model ID: DeepLearning model R 1451972322936 5 

Status of Neuron Layers: predicting Vl, regression, gaussian 
distribution, Quadratic loss, 4,601 weights/biases, 72.5 KB, 


13,702,476 
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training samples, mini-batch size 1 


layer units type  dropout 11 12 mean rate 
1 1 90 Input 0.00 % 

2 2 50 RectifierDropout 0.00 % 0.000000 0.000000 0.009403 
3 3 1 Linear 0.000000 0.000000 0.000218 
rate RMS momentum mean weight weight RMS mean bias bias RMS 

1 


2 0.007939 0.000000 -0.018219 0.598229 -2.199141 2.245173 
3 0.000202 0.000000 -0.042807 0.103305 -0.767868 0.000000 


H2ORegressionMetrics: deeplearning 
** Reported on training data. ** 


Description: Metrics reported on full training frame 








MSE: 76 
R2 : 0.37 
Mean Residual Deviance : 76 


H20RegressionMetrics: deeplearning 
** Reported on validation data. ** 
Description: Metrics reported on temporary (load-balanced) 


validation frame 





MSE: 80 
R237 02892 
Mean Residual Deviance : 80 

















虽然 浅 层 神经 网 络 比 线性 回归 性 能 有 所 提升 ， 但 它 的 表现 依然 不 太 好 ， 性 能 
还 有 明显 提升 的 空间 。 接 下 来 ， 我 们 将 尝试 一 个 更 大 的 深度 前 馈 神经 网 络 。 在 接 
下 来 的 模型 代码 中 ， 我们 有 三 个 隐藏 神 经 元 的 层 ,分 别 有 200 个 、200 个 、400 个 
隐藏 神经 元 。 我 们 将 在 隐藏 层 《〈 而 不 是 输入 层 ) 上 引入 一 个 中 等 数量 的 丢弃 。 这 
个 模型 的 训练 耗费 了 843 秒 。 





























7 
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m2 <- h2o.deeplearning ( 
x = colnames (d) [-1], 
yy mp, 
training frame= h2omsd.train, 
validation frame - h2omsd.test, 
activation = "RectifierWithDropout", 
hidden = c(200, 200, 400), 
epochs = 100, 











input_dropout_ratio = 0, 

hidden dropout ratios = c(.2, .2, .2), 
Score training samples = 0, 

Score validation samples - O0, 
diagnostics - TRUE, 

export weights and biases - TRUE, 
variable importances - TRUE 





) 





检查 这 个 模型 的 性 能 ， 比 起 我 们 开始 尝试 的 小 的 浅 层 网 络 ， 有 了 显而易见 的 提 
升 。 在 测试 数据 中 ， 浅 层 网 络 有 0.32 的 R*， 而 在 深度 网 络 中 有 0.35 H R 



































这 里 依然 有 某 种 程度 的 过 拟 合 。 这 个 模型 在 训练 数据 和 测试 数据 中 RT 的 差异 
是 0.05, 我 们 可 以 与 这 个 差异 同样 是 0.05 的 更 简单 的 模型 比较 。 更 复杂 的 模型 提高 
性 能 ， 在 过 拟 合 上 相差 无 几 ， 这 可 能 要 归功 于 丢弃 的 使 用 。 











= 





m2 


Model Details: 








H2ORegressionModel: deeplearning 

Model ID: DeepLearning model R 1452031055473 5 

Status of Neuron Layers: predicting V1, regression, gaussian 

distribution, Quadratic loss, 139,201 weights/biases, 1.6 MB, 
22,695,351 


training samples, mini-batch size 1 
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layer units type dropout 11 12 mean rate 
1 1 90 Input 0.00 $ 
2 2 200 RectifierDropout 20.00 % 0.000000 0.000000 0.011513 
3 3 200 RectifierDropout 20.00 % 0.000000 0.000000 0.014861 
4 4 400 RectifierDropout 20.00 % 0.000000 0.000000 0.054338 
5 5 1 Linear 0.000000 0.000000 0.001258 
rate RMS momentum mean weight weight RMS mean bias bias RMS 
1 
2 0.004978 0.000000 0.000848 0.207373 -0.254659 0.321144 
3 0.012359 0.000000 -0.032566 0.104347 1.017329 0.341556 
4 0.036596 0.000000 -0.031768 0.072171 0.651546 0.292565 
5 0.000505 0.000000 0.001421 0.020867 -0.596303 0.000000 


H2ORegressionMetrics: deeplearning 
** Reported on training data. ** 


Description: Metrics reported on full training frame 








MSE: 66 
R2 : 0.40 
Mean Residual Deviance : 66 


H20RegressionMetrics: deeplearning 
** Reported on validation data. ** 
Description: Metrics reported on temporary (load-balanced) 


validation frame 





MSE: 70 
R2: 0.35 
Mean Residual Deviance : 70 


为 了 碍 看 性 能 是 否 在 测试 数据 上 有 更 多 的 提高 ， 我 们 可 以 尝试 一 个 额外 的 模 
型 ， 包 括 了 每 g 1 实质 上 更 多 的 隐藏 神经 元 、 更 多 的 训练 轮 数 以 及 带 有 更 高 程度 


HE 
n 
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的 正则 化 。 大 家 可 能 不 想 运 行 下 列 代 码 (在 10 核 H20 集群 上 要 花费 多 于 10 小 时 





的 时 间 )。 
m3 «- h2o.deeplearning ( 
x — colnames (d)[-1], 
y= "V1 We 


training frame= h2omsd.train, 
validation frame = h2omsd.test, 
activation = "RectifierWithDropout", 
hidden = c(500, 500, 1000), 

epochs = 500, 











input_dropout_ratio = 0, 

hidden dropout ratios = c(.5, .5, .5), 
score training samples = 0, 

score validation samples = 0, 
diagnostics = TRUE, 

export weights and biases = TRUE 


) 











这 个 模型 在 测试 数据 上 的 性 能 事实 上 比 前 两 个 模型 要 差 , 尽 


性 回归 。 





m3 


Model Details: 








H20RegressionModel: deeplearning 


管 它 依然 优 于 线 


Model ID: 


DeepLearning model R 1451972322936 15 


Status of Neuron Layers: predicting V1, regression, 


gaussian 


distribution, 


Quadratic loss, 


798,001 weights/biases, 9.2 MB, 


47,002,720 
training samples, 
layer units 
1 1 90 


mini-batch size 1 
type dropout Ll 
0.00 $ 


12 mean rate 


Input 
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2 2 500 RectifierDropout 50.00 $ 0.000000 0.000000 0.028872 
3 3 500 RectifierDropout 50.00 $ 0.000000 0.000000 0.047632 
4 4 1000 RectifierDropout 50.00 $ 0.000000 0.000000 0.084886 
5 5 1 Linear 0.000000 0.000000 0.001238 
rate RMS momentum mean weight weight RMS mean bias bias RMS 

1 

2 0.014727 0.000000 0.000941 0.069018 0.417255 0.048082 

3 0.020226 0.000000 -0.007515 0.049535 0.968111 0.054521 

4 0.062396 0.000000 -0.009451 0.038735 0.929930 0.032726 

5 0.000445 0.000000 0.000538 0.014785 -0.478095 0.000000 


H2ORegressionMetrics: deeplearning 
** Reported on training data. ** 


Description: Metrics reported on full training frame 








MSE: 84 
R2 : 0.30 
Mean Residual Deviance : 84 


H20RegressionMetrics: deeplearning 
** Reported on validation data. ** 
Description: Metrics reported on temporary (load-balanced) 


validation frame 





MSE: 85 
R2: 0.28 
Mean Residual Deviance : 85 








最 好 的 模型 依然 是 深度 模型 ， 但 只 是 每 一 层 有 较 少 神经 元 的 深度 模型 。 我 们 能 
够 使 用 一 种 方法 试 着 查看 模型 性 能 是 否 被 提升 ， 即 对 额外 的 轮 数 或 者 从 代 和 尝试 
练 。 模 型 的 输入 中 是 模型 的 ID 。 对 于 最 佳 表 现 的 模型 , 是 DeepLearning model 
R 1452031055473 5。 它 可 以 传递 给 h2o .deeplearning () KÆ] checkpoint 





[ay 
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参数 ， 这 样 训 练 可 以 开始 使 用 来 自 之 前 模型 的 权重 。 注 意 ， 我 们 运行 代码 的 时 候 ， 
每 一 次 的 模型 ID 都 会 不 同 。 因 此 ， 当 我 们 在 自己 的 电脑 或 服务 器 上 运行 代码 的 时 
候 ， 需 要 使 用 来 自 于 我 们 所 运行 的 模型 的 ID。 






































既然 一 般 的 架构 一 一 隐藏 神经 元 个 数 、 层 数 和 连结 一 一 保持 相同 ， 使 用 检查 点 
可 以 极 大 地 贡 约 时 间 。 这 既是 因为 之 前 的 训练 欠 代 可 以 被 重复 使 用 ， 也 是 因为 通常 
较 早 的 迭代 会 比较 晚 的 欠 代 花费 更 长 的 时 间 。 下 面 的 例子 展示 了 如 何 运行 模型 将 轮 
数 从 500 改变 到 1000 CALA 500 已 经 实现 了 )， 而 且 将 模型 名 字 指 定 为 字符 串 传 递 
给 checkpoint 参数 ， 从 前 一 个 模型 开始 运行 。 



























































m2b <- h2o.deeplearning ( 
x = colnames (d) [-1], 
y - "vi", 
training frame- h2omsd.train, 
validation frame - h2omsd.test, 
activation = "RectifierWithDropout", 
hidden = c(200, 200, 400), 
checkpoint - "DeepLearning model R 1452031055473 5", 
epochs - 1000, 
input dropout ratio = 0, 
hidden dropout ratios - c(. 
Score training samples = 0, 


Score validation samples - O0, 





diagnostics - TRUE, 








export weights and biases - TRUE 


- 


= 


variable importances = TRUE 





然而 最 终 ， 额 外 的 轮 数 并 没有 提升 模型 性 能 。 事 实 上 ， 它 变 得 更 差 了 。 





m2b 


Model Details: 
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H20RegressionModel: deeplearning 
Model ID: DeepLearning model R 1452031055473 81 


Status of Neuron Layers: predicting V1, regression, gaussian 
distribution, Quadratic loss, 139,201 weights/biases, 1.6 MB, 


30,054,531 


training samples, mini-batch size 1 


layer units type  dropout 11 12 mean rate 
1 1 90 Input 0.00 % 
2 2 200 RectifierDropout 20.00 % 0.000000 0.000000 0.008598 
3 3 200 RectifierDropout 20.00 % 0.000000 0.000000 0.012581 
4 4 400 RectifierDropout 20.00 $ 0.000000 0.000000 0.025138 
5 5 d Linear 0.000000 0.000000 0.000895 
rate RMS momentum mean weight weight RMS mean bias bias RMS 
1 
2 0.004485 0.000000 -0.004116 0.473692 -1.601533 1.060434 
3 0.017790 0.000000 -0.040249 0.239924 0.767950 1.305716 
4 0.022843 0.000000 -0.048592 0.105753 0.360921 0.439503 
5 0.000582 0.000000 -0.001778 0.029287 -0.065273 0.000000 


H2ORegressionMetrics: deeplearning 
** Reported on training data. ** 


Description: Metrics reported on full training frame 








MSE: 62 
R2: 0.43 
Mean Residual Deviance : 62 


H2ORegressionMetrics: deeplearning 
** Reported on validation data. ** 


Description: Metrics reported on temporary (load-balanced) 





validation frame 
MSE: EA 
R2.-$ 0.33 
Mean Residual Deviance : 72 
将 模型 保存 在 R 中 是 很 容易 的 ， 但 是 从 Ri 
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HH H20 时 ， 大 多 数 结果 并 没有 真 
































的 存 贮 在 R 当中 ， 相 反 它 们 是 存 贮 在 H20 集群 
过 是 保存 了 HO 中 模型 的 引用 ， 而 且 如 果 这 种 引用 关闭 或 者 丢失 ， 完 整 的 模型 结 
果 将 不 被 保存 下 来 。 为 了 避免 这 种 情况 并 保存 完整 的 模型 结果 ， 我 们 使 用 
〈 通 过 把 它 传 递 给 R 对 象 )、 路 径 























! 的 。 因 此， 仅仅 保存 R 对 象 只 不 


























h20.saveModel () 函数 并 指定 要 保存 的 模型 
path 以 及 当 文 件 存在 的 时 候 是 否 要 覆盖 文件 〈 使 用 force = TRUE). 


h20.saveModel( 
object = m2, 















































path = "c:\\Users\\jwile\\DeepLearning", 


force 


这 将 创建 一 个 目录 ， 包 括 所 有 需要 载 入 并 再 


了 模型 ， 就 可 以 使 用 h2o .1oadModel () 函数 将 这 个 模型 加 载 到 一 个 新 的 H20 R 





= TRUE) 






































次 使 用 模型 的 文件 。 一 旦 我 们 保存 





群 中 。 注 意 ， 对 于 要 加 载 的 模型 结果 ， 我 们 必须 指定 文件 夹 的 名 称 。 

















除了 保存 模型 结果 以 便 再 次 载 入 到 H20 集群 之 外 ， 我 们 还 可 以 将 模型 保存 成 
一 个 简单 的 Java 对 象 (Plain Old Java Object，POJO )。 把 模型 保存 成 POJO 是 有 用 





的 ， 因 为 它们 能 内 


























嵌 到 任何 应 用 中 并 且 使 用 评分 结果 。H2O 模型 可 以 使 用 


h20.download pojo() 函数 ， 以 同样 的 参数 保存 成 POJO。 


另 一 个 有 用 的 函数 是 hn2o .scoreH 





代 中 的 性 能 、 
数 和 结果 。 











istory() 。 评 分 历史 显示 了 模型 在 各 次 迭 




















时 间 戳 以 及 每 一 个 轮 数 的 持续 时 间 。 下 列 代码 显示 了 如 何 使 用 这 个 函 


h20.scoreHistory (m2) 
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Scoring History: 




















timestamp duration training speed epochs 

1 2016-01-06 23:20:18 0.000 sec 0.00000 
2 2016-01-06 23:20:26 15.537 sec 13922 rows/sec 0.21687 
3 2016-01-06 23:21:51 1 min 40.761 sec 22603 rows/sec 4.11902 
4 2016-01-06 23:23:15 3 min 4.790 sec 25030 rows/sec 8.66890 
5 2016-01-06 23:24:39 4 min 28.208 sec 26347 rows/sec 13.43506 
6 2016-01-06 23:26:00 5 min 49.401 sec 27540 rows/sec 18.41458 
7 2016-01-06 23:27:21 7 min 10.032 sec 28317 rows/sec 23.39553 
8 2016-01-06 23:28:40 8 min 29.325 sec 28928 rows/sec 28.37323 
9 2016-01-06 23:29:59 9 min 48.908 sec 29354 rows/sec 33.34907 
10 2016-01-06 23:31:21 11 min 10.056 sec 29771 rows/sec 38.54472 
11 2016-01-06 23:32:41 12 min 30.532 sec 30130 rows/sec 43.73626 
12 2016-01-06 23:34:04 13 min 53.652 sec 30444 rows/sec 49.14818 
13 2016-01-06 23:34:12 14 min 1.667 sec 30442 rows/sec 49.14818 

iterations samples training MSE training deviance 
1 0 0.000000 
2 1 100145.000000 73.50950 73.50950 
3 19 1902057.000000 65.90201 65.90201 
4 40 4003071.000000 66.39865 66.39865 
5 62 6203960.000000 63.97995 63.97995 
6 85 8503375.000000 65.20361 65.20361 
7 108 10803448.000000 62.67372 62.67372 
8 131 13102020.000000 63.91678 63.91678 
9 154 15399734.000000 60.31355 60.31355 
10 178 17798949.000000 60.15803 60.15803 
11 202 20196268.000000 61.71012 61.71012 
12 227 22695351.000000 58.34747 58.34747 
13 227 22695351.000000 65.90201 65.90201 

training r2 validation MSE validation deviance validation r2 
T 
2 0.32564 73.672712 73.672712 0.30763 
3 0.39543 69.57711 69.57711 0.34612 
4 0.39087 71.70615 71.70615 0.32611 
5 0.41306 70.45211 70.45211 0.33790 


到 
提供 的 














能 计算 
测 


=> 





























Kl, RINE A 





目前 为 上 上， 我 们 只 检查 了 模型 的 整体 性 能 。 尽 





98921 
90519 


.69913 


49905 
76801 


.22494 


55234 
57711 
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0.40184 TAs 
0.42505 TO; 
0.41364 42 
0.44670 70. 
0.44812 TOS 
0.43389 72 
0.46473 310. 
0.39543 69. 
还 不 是 完 
































BRA, 方法 是 使 用 h2o.predict( 
直 和 预测 值 的 差 。 下 面 的 代码 提取 了 预测 值 ， 








不 足 。 
残 差 的 


yhat «- 
yhat «- 


p. 


pr 





明了 前 面 的 年 份 有 极端 异常 的 模型 预测 。 在 茶 种 程度 





因为 年 份 是 离散 的 ， 
箱 形 图 来 可 视 化 这 个 数据 ， 如 医 








resid 


geom boxplot () 


FE 着 一 个 完 


整 的 图 景 。 检 查 残 差 有 助 于 我 们 得 
一 任性 以 及 是 否 有 任何 异常 的 方差 。 这 些 结果 有 助 于 我 们 更 全 面 的 训 
































) 函数 得 到 所 有 观测 的 预 涡 
EENIA 









































as.data.frame (h20.p 
cbind(as.data.frame(h2omsd.train[["V1"]]), 


十 











5-5 所 示 。 


redict (m1, 


«- ggplot(yhat, aes(factor(V1), 





geom hline(yint 
theme classic() 


theme (axis.text 


rcept = 0) 





angle = 


xlab("Year of 





ylab("Predicted Year of Release") 


int (p.resid) 





+ 
.X = element text( 
90, vjust - 


























Release") 十 


0.5; 


hjust - 





.98921 
.90519 
.69913 
.49905 
.76801 
.22494 
.55234 
JAY 











解 ， 在 数据 范围 内 性 能 












































h2omsd.train) ) 
yhat) 


predict - V1)) 


0)) 十 
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.32345 
.33364 
.31678 
.33746 
.33493 
.32124 
.33696 
.34612 





管 这 是 一 种 有 用 的 概括 ， 但 它 














十 


结果 表明 ， 在 后 面 的 年 份 中 有 一 种 残 差 减少 的 显著 模式 ， 或 者 换 种 说 法 ， 它 





ERRA 
FE 价 性 能 。 我 们 
ME, SA ja Hew 
I 值 合并 在 一 起 并 且 画 
的 预测 ， 正 的 或 者 负 的 残 差 象征 着 预测 过 度 或 者 预测 
使 用 下 面 的 代码 ， 我 们 能 对 每 首 歌 发 布 的 真实 年 份 采用 





























上 ， 这 或 许 要 归咎 于 数据 的 


v 


cow 
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布 。 对 于 从 1990 年 代 中 期 到 2000 年 代 的 大 多 数 观测 ， 如 同 之 前 我 们 在 图 5-4 中 所 
见 到 的 ， 对 于 准确 地 预测 这 些 值 ， 模 型 是 最 敏感 的 ， 在 1990 年 或 1980 年 之 前 较 少 
的 观测 具有 较 小 的 影响 。 
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因为 使 用 了 variable importances 参数 ， 我 们 使 用 h2o.varimp () 函数 
能 为 模型 提取 每 个 变量 的 相对 重要 性 。 尽 管 精确 分 配 每 个 变量 的 重要 性 是 很 困难 
的 ， 但 它 有 助 于 提供 一 种 大 致 的 感觉 ， 判 断 哪个 变量 能 比 其 他 变量 对 预测 做 出 更 大 
的 贡献 。 例 如 ， 为 了 排除 一 些 贡献 非常 小 的 变量 ， 这 可 能 是 一 种 有 益 的 方式 。 下 面 
的 代码 提取 了 重要 的 变量 ， 打 印 了 最 重要 的 10 个 《数据 集 按照 从 最 重要 到 最 不 重 
要 的 方式 排列 )， 而 且 做 了 结果 的 图 形 来 演示 分 布 ， 如 图 5-6 所 示 。 







































































0.04 


0.03 


总 重要 性 的 百分比 


0.01 














imp «- as.data.frame (h20.varimp (m2)) 


imp[1:10, ] 
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variable relative importance scaled importance percentage 
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RSF 


p.imp <- ggplot (imp, 
)) 4 
geom point() 





percentag 
十 
theme classic() + 


theme(axis.text.x = 





xlab("Variable Number" 


) c 


aes(factor(variable, 


lement blank()) 


levels 


十 


ylab("Percentage of Total Importance") 


print (p.imp) 





根据 数据 集 的 描述 ， 前 








3745 


E15 


前 三 个 都 是 音 
很 高 或 者 入 
的 模型 测试 了 使 用 信 
























































简 








mtest <- h2o.deeplearning ( 


X 


y= 


colnames (d) [2:13], 
"V1 Ww i 


12 个 变量 给 出 了 音 
是 来 自前 12 个 变量 的 协 方差 矩阵 的 唯一 成 分 。 
而 不 是 来 自 于 协 方差 。 例 妇 
困难 ， 我 们 或 许 会 考虑 只 使 用 前 12 个 变量 
单 浅 层 模型 的 方法 。 





乐 的 各 种 音色 





variable), 


色 ， 接 下 来 的 78 个 变量 








有 意思 的 是 ， 在 最 重要 的 变量 





1, 














training frame= h2omsd.train, 


validation frame 


h2omsd.test, 


a. 
EH 


可 能 会 是 什么 样 的 性 能 。 下 





activation = "RectifierWithDropout", 
hidden = c(50), 
epochs - 100, 


input dropout ratio 


hidden dropout ratios 
Score training samples 
Score valida 


TRUI 


ts and bia 





diagnostics E 


F 





export weigh 


variable importances 


mtest 


tion samples 


0, 


ses 


TRUI 





Gl 


TRUI 





Gl 


qu) 





1， 如 果 后 78 个 变量 收集 起 来 的 代价 
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H20RegressionModel: deeplearning 

Model ID: DeepLearning model R 1452082402089 15 

Status of Neuron Layers: predicting V1, regression, gaussian 

distribution, Quadratic loss, 701 weights/biases, 13.6 KB, 27, 
398,762 


training samples, mini-batch size 1 


layer units type dropout 11 12 mean rate 
1 1 12 Input 0.00 $ 
2 2 50 RectifierDropout 0.00 $ 0.000000 0.000000 0.003773 
3 3 1 Linear 0.000000 0.000000 0.000985 
rate RMS momentum mean weight weight RMS mean bias bias RMS 
1 
2 0.007925 0.000000 0.004197 0.504967 -0.679546 0.965184 
3 0.000926 0.000000 -0.106522 0.286619 -1.400430 0.000000 


H2O0RegressionMetrics: deeplearning 
** Reported on training data. ** 
Description: Metrics reported on full training frame 








MSE: 82 
R2 : 0.24 
Mean Residual Deviance : 82 


H20RegressionMetrics: deeplearning 
** Reported on validation data. ** 
Description: Metrics reported on temporary (load-balanced) 


validation frame 





MSE: 83 
R2 : 0.22 
Mean Residual Deviance : 83 





结果 表明 ，R“ 对 于 训练 数据 仅 为 0.24， 对 于 测试 数据 仅 为 0.2， 这 依然 比 得 
上 
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使 用 所 有 变量 的 线性 回归 ， 但 是 远 低 于 在 完整 的 预测 变量 
得 的 0.32 或 0.35。 即 使 很 多 变量 只 有 相当 小 的 重要 性 ， 把 














的 差异 。 


5.6 小 结 















































练 预测 模型 。 尽 管 深度 前 馈 季 
层 ， 每 一 层 都 是 相当 简单 的 ， 还 带 有 一 个 输入 集 和 一 个 输 晶 


起 的 权重 和 偏差 





























o 








我 们 已 经 看 到 了 使 用 深度 学 习 在 预测 性 能 上 的 可 能 的 提 
性 回归 只 解释 了 测试 数据 中 23% 的 变化 。 然 而 ， 使 用 深度 前 
解释 歌曲 发 布 年 份 中 35% 的 变化 。 尽 管 远 谈 不 上 完美 ， 这 依然 是 在 回归 性 能 之 上 的 



































戏剧 性 的 提升 。 而 且 低 性 能 更 多 可 能 是 与 缺乏 解释 逐年 差异 




















zm 




















集合 上 使 用 神经 网 络 获 
它 











Er 








们 加 起 来 就 有 了 显著 








在 本 章 中 ， 我 们 深入 地 描述 了 什么 是 深度 神经 网 络 ， 特 别 是 如 何 使 用 它们 来 训 
经 网 络 看 起 来 相当 复杂 ， 它 们 也 可 以 分 解 成 一 系列 的 
上 集 以 及 把 两 者 映射 到 一 





升 。 在 用 例 中 ， 使 用 线 
馈 神经 网 络 ， 我们 能 够 





















































的 数据 有 关 而 不 是 由 于 





模型 本 身 ( 换 句 话说 , 没有 更 多 /更 好 的 预测 变量 即使 用 最 好 的 模型 也 不 太 可 能 解释 
99% 的 变化 )。 接 下 来 ， 本 书 的 第 6 章 将 要 介绍 如 何 调节 和 优化 模型 ， 包 括 如 何 解 


决 茶 些 常见 的 挑 











战 ， 比 如 缺失 数据 或 者 低劣 的 模型 准确 度 / 愧 




















Lob 
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第 6 章 
调节 和 优化 模型 


在 本 章 中 ， 我 们 将 讨论 一 些 用 来 调节 模型 的 方法 。 这 会 涉及 解决 缺失 数据 的 方 
。 有 虽然 我 们 已 经 使 用 过 没有 缺失 数据 的 案例 数据 集 ， 但 在 真实 数据 中 有 缺失 数据 
是 司空 见 惯 的 。 我们 还 将 讨论 当 模 型 的 性 能 不 佳 时 能 做 什么 ， 包括 如 何 寻 找 并 优化 
模型 超 参 数 的 详细 的 检查 。 


RE 


























这 一 章 将 包括 下 列 主题 














。 处 理 缺 失 数据 








e 低 准 确 度 模 型 的 解决 方案 














在 本 章 中 ,我 们 将 使 用 两 个 新 包 : 用 于 作 图 的 gridExtra 包 以 及 用 于 拟 合 广义 可 
加 模型 的 mgcv 包 。 我 们 应 该 将 这 些 新 包 添 加 到 checkpoint.R 文件 中 ， 获 取 这 
个 文件 ， 用 来 为 余下 显示 的 代码 创建 R 环境 。 我 们 使 用 下 列 代码 ， 建 立 R 并 且 初 
始 化 H20 集群 。 

















source("checkpoint.R") 
options (width = 70, digits = 2) 


cl <- h2o.init( 


max mem size = "12G", 
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nthreads = 4) 


6.1 处理 缺失 数据 





在 处 理 真 实 世界 的 应 用 时 ， 通 常 我 们 需要 应 付 缺 失 数据 。H20 包括 了 一 个 使 用 
均值 、 中 位 数 或 者 众 数 择 补 变量 的 函数 ， 而 且 其 他 的 一 些 分 组 变量 也 可 以 选择 用 来 
做 插 补 。 为 了 检查 如 何 使 用 这 种 方式 插 补 缺失 数据 ， 我 们 将 使 用 关于 花 条 的 短小 的 
Iris 数据 集 。 为 此 ， 我 们 将 把 品种 setosa 的 花 准 宽度 Cpetal width) 和 长 度 值 设置 
为 缺失 ， 然 后 插 补 它们 的 值 。 

























































































## setup iris data with some missing 

d <- as.data.table (iris) 

d[Species == "setosa", c("Petal.Width", "Petal.Length") := .(N 
A, NA)] 


h20.dmiss «- as.h2o(d, destination frame-"iris missing") 


h20.dmeanimp «- as.h2o(d, destination frame-"iris missing imp") 


























首先 ， 我 们 将 做 简单 的 均值 插 补 ， 这 需要 每 次 处 理 一 列 。 




















## mean imputation 


missing.cols <- colnames(h2o.dmiss) [apply(d, 2, anyNA) ] 


for (v in missing.cols) { 





h20.dmeanimp <- h2o.impute(h20.dmeanimp, column = v) 


} 








估算 全 体 非 缺失 值 均值 的 一 个 问题 是 ， 如 果 存 在 任何 系统 性 的 差异 ， 这 些 差 异 
将 会 被 遗漏 。 而 且 ， 如 果 我 们 能 从 任何 非 缺 失 的 数据 中 得 到 关于 缺失 数据 的 更 好 的 
了 预测， 差异 也 将 被 错过 。 


























我 们 能 使 用 一 个 简单 的 预测 模型 代 蔡 简单 的 均值 插 补 。 下 列 代码 建立 了 一 个 随 
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机 森林 模型 , 来 预测 每 个 缺失 的 列 , 使 用 了 所 有 的 缺 省 值 。 如 果 随 机 森林 有 
也 能 使 用 glm 模型 。 























## random forest imputation 
d.imputed <- d 


## prediction model 


for (v in missing.cols) { 





tmp.m «- h2o.randomForest( 


x = setdiff(colnames(h20o.dmiss), v), 
yY = V, 
training frame = h2o.dmiss) 


HRK, 


yhat <- as.data.frame(h2o.predict(tmp.m, newdata = h2o.dmiss 


d.imputed[[v]] <- ifelse(is.na(d.imputed[[v]]), yhat$predict, 


d.imputed[[v]]) 
} 





为 了 比较 不 同 的 方法 , 我 们 可 以 创建 一 个 花 浴 长 度 对 花 办 宽度 的 散 点 图 ,， 散 点 的 
颜色 和 形状 由 花 准 的 种 类 来 决定 。 这 张 图 有 三 个 子 图 。 上 方 的 图 是 初始 数据 。 中 间 












































的 图 是 使 用 了 均值 插 补 的 数据 。 下 方 的 图 是 使 用 随机 森林 插 补 的 数据 。 下 
建 了 如 图 6-1 所 示 的 图 形 。 














grid.arrange ( 
ggplot(iris, aes(Petal.Length, Petal.Width, 





color = Species, shape = Species) ) 
geom point() + 


theme classic() + 





ggtitle("Original Data"), 
ggplot(as.data.frame(h20.dmeanimp), aes(Petal.Length, 
Width, 





color = Species, shape = Species)) 
geom point() 十 
theme classic() + 


ggtitle("Mean Imputed Data"), 


列 代码 创 


Petal. 
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ggplot (d.imputed, 
color - 
geom point() + 


theme classic() 


Species, 


aes (Petal.Length, 
shap 


Petal.Width, 
= Species)) d 





十 


ggtitle("Random Forest Imputed Data"), 


ncol = 1) 





2.5 


20 


Petal.Width 
an 


= 
eo 


0.5 


0.0 


Petal.Width 











原始 数据 
Species 
* setosa 
^ versicolor 
* virginica 
4 6 
Petal.Length 
均值 插 补 数据 
Species 
* setosa 
^ versicolor 
* virginica 
Petal.Length 








图 6-1 
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随机 森林 插 补 数据 


Species 
* setosa 


^ versicolor 


Petal.Width 


* virginica 











4 
Petal.Length 





图 6-1 CHD 











在 这 个 例子 中 ， 均 值 插 补 创建 的 异常 值 相 当地 侦 离 了 现实 ， 如 果 有 需要 ， 应 该 
生成 更 高 级 的 预测 模型 。 在 统计 推断 中 ， 多 重 插 补 要 优先 于 单一 插 补 〈 无 论 何 种 方 
法 )， 因 为 后 者 未 能 孝 虑 不 确定 性 。 就 是 说 ， 当 插 补 缺失 数据 时 ， 因 为 要 明确 那些 
值 到 底 是 什么 ， 存 在 着 某 种 程度 的 不 确定 性 。 然 而 ， 在 大 多 数 深度 学 习 的 用 例 中 ， 
数据 集 实在 太 大 而 且 计算 时 间 要 求 太 多 ， 无 法 做 到 创建 有 不 同 插 补 值 的 多 重 数 据 
集 ， 而 且 在 每 一 个 数据 集 上 训练 模型 并 且 汇 总 结果 。 于 是 ， 这 些 更 简单 的 方法 《〈 比 
如 均值 插 补 或 者 使 用 其 他 的 预测 模型 ) 是 常用 的 。 


















































































































































6.2 低 准 确 度 模 型 的 解决 方案 



































最 上 共有 挑战 性 的 ， 也 是 潜在 优化 模型 方面 最 重要 的 是 为 超 参 数 选择 取 值 。 理 论 
上 上， 我们 想 要 选择 最 好 的 组 合 ， 虽 然 我 们 不 可 能 真 的 找到 全 局 最 优 ， 但 本 布 中 的 技 
术 能 够 帮忙 找到 更 好 的 超 参 数 取 值 。 更 好 的 超 参数 通常 能 提升 模型 的 准确 度 。 



























































然而 有 时 候 ， 一 个 模型 有 坏 的 准确 度 要 归 知 于 缺乏 好 的 预测 所 要 求 的 变量 ， 或 
者 是 因为 没有 足够 的 数据 去 支持 训练 一 个 足够 复杂 的 模型 来 准确 地 预测 或 分 类 数 
据 。 这 些 情况 也 会 要 求 获取 一 些 额外 的 变量 〈 特 征 )， 用 以 预测 和 《或 ) 其 他 情况 。 
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本 书 不 能 帮助 读者 收集 更 多 的 数据 ， 但 是 它 能 介绍 调节 和 优化 超 参数 的 方法 。 接 下 
来 我 们 将 处 理 这 一 点 。 














6.2.1 网 格 搜索 











关于 调节 超 参 数 的 更 多 的 信息 ， 参 见 Bengio, Y. (2012)， 特 别 是 第 5 章 第 3 节 ， 
































讨论 了 各 种 超 参数 的 选择 和 刻画 。 除 了 手动 斌 错 法 ， 男 外 两 种 可 以 提升 超 参 数 的 方 
法 是 网 格 搜索 和 随机 搜索 。 在 网 格 搜 索 直 














1， 我 们 可 以 对 





国 参 数 指定 几 个 























试 所 有 可 能 的 组 合 。 这 种 方法 或 许 是 最 容易 看 到 的 。 在 R P, 我们 能 使 用 


expa 
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Oo OA HD OB WBN FP 


PPP PP Pe 

















nd .grid() 函数 来 创建 所 有 可 能 





xpand.grid( 
layers = c(1, 2, 4), 
epochs = c(50, 100), 
11 = c(.001, .01, .05)) 


layers epochs 13 

1 50 0.001 

2 50 0.001 

4 50 0.001 

1 100 0.001 

2 100 0.001 

4 100 0.001 

iL 50 0.010 

2 50 0.010 

4 50 0.010 

0 I 100 0.010 
1 2 100 0.010 
2 4 100 0.010 
3 1 50 0.050 
4 2 50 0.050 
5 4 50 0.050 
6 于 100 0.050 








GEEAE. 
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17 2 100 0.050 
18 4 100 0.050 
当 这 几 个 参数 只 有 少数 几 个 取 值 的 时 候 ， 网 格 搜索 是 优异 的 。 然 而 ， 尽 管 这 是 














一 种 评 佑 不同 参 数 取 值 的 全 面 的 方法 ， 当 对 某 些 或 许多 个 参数 有 很 多 取 值 的 时 候 ， 
它 就 迅速 变 成 不 可 行 的 了 。 例 如 ， 即 使 8 个 参数 中 的 每 一 个 都 具有 两 个 取 值 ， 就 有 
T 2°=256 种 组 合 ， 这 样 很 快 在 计算 上 就 不 切实 际 了 。 而 且 ， 如 果 参 数 和 模型 性 能 
之 间 没 有 相互 作用 ， 或 者 这 种 相互 作用 相对 于 主要 效应 很 小 ， 那 么 网 格 搜索 就 是 无 
效 的 方法 ， 因 为 许多 参数 值 被 重复 了 ， 这 样 尽 管 尝试 了 许多 组 合 ， 也 只 是 抽样 了 取 


值 的 一 个 小 集合 。 


















































































































































6.2.2 随机 搜索 














一 种 蔡 代 的 方法 是 通过 随机 抽样 进行 搜索 。 与 其 指定 所 有 的 值 去 尝试 并 去 创建 
所 有 的 组 合 ， 不 如 为 参数 随机 地 抽样 取 值 、 拟 合 模型 、 存 储 结果 并 重复 这 个 过 程 。 
为 了 得 到 非常 大 的 样本 规模 ， 也 会 有 计算 上 的 需求 ， 但 这 确实 能 直接 指定 有 多 少 个 
我 们 愿意 运行 的 模型 。 










































































对 随机 抽样 来 说 ， 所 有 需要 被 指定 的 就 是 要 随机 抽样 的 值 或 者 要 随机 抽出 的 分 
布 。 通常, 我 们 也 要 设置 一 些 限 制 。 例如 ,尽管 一 个 模型 在 理论 上 有 任何 整数 个 层 ， 
抽样 使 用 的 是 一 些 合理 的 数 〈 例 如 1 一 10) 而 不 是 抽样 一 到 一 百 万 的 整数 。 

































































为 了 做 随机 抽样 ， 我 们 将 写 出 一 个 函数 ， 它 取 一 个 随机 数 种 子 然后 随机 地 抽取 
一 些 超 参 数 ， 存 储 抽取 的 参数 ， 运 行 模 型 并 返回 结果 。 即 使 做 一 次 随机 搜索 来 尝试 
找到 更 好 的 值 ， 我 们 也 不 是 从 所 有 可 能 的 超 参数 中 来 抽样 。 许 多 超 参数 保持 在 我 们 
指定 的 固定 值 或 者 它们 的 缺 省 值 上 。 













































































对 某 些 参数 来 说 ， 我 们 可 以 采取 一 些 处 理 来 指定 如 何 来 随机 抽样 取 值 。 例 如 ， 
当 为 了 正则 化 而 使 用 丢弃 时 ， 对 于 输入 变量 通常 有 一 个 较 少 数量 的 丢弃 (一 般 大 约 
20%)， 对 于 隐藏 神经 元 有 一 个 较 大 数量 的 丢弃 一般 大 约 50%)。 选 择 恰当 的 分 布 


















































140 第 6 章 调节 和 优化 模型 














可 以 允许 我 们 把 这 种 先 验 信息 编码 到 随机 搜索 中 。 下 列 代 码 画 出 了 两 个 beta 分 布 的 
密度 ， 结 果 如 图 6-2 所 示 。 通 过 在 这 些 分 布 中 抽样 ， 我 们 能 确保 搜索 ， 尽 管 是 随机 
的 ， 重 点 在 于 输入 变量 小 比例 的 丢弃 上 ， 而 且 在 0 一 0.50 的 范围 内 对 隐藏 神经 元 来 
说 ， 有 一 种 趋势 是 从 更 接近 0.50 的 值 当 中 过 抽样 〈oversample )。 
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par(mfrow = c(2, 1)) 
plot( 
seq(0, .5, by = .001), 
dbeta(seq(0, .5, by = .001), 1, 12), 


type = "1", xlab = "x", ylab = "Density", 
main = "Density of a beta(1, 12)") 
plot( 


seq(0, 1, by = .001) 72, 

dbeta(seq(0, 1, by = .001), 1.5, 1), 

type = "1", xlab = "x", ylab = "Density", 
main = "Density of a beta(1.5, 1) / 2") 











现在 我 们 能 写 这 个 函数 了 ， 把 它 叫 作 run () 。 它 所 需要 的 只 是 一 个 随机 种 子 ， 














用 来 使 参数 选择 的 过 程 可 重复 。 我 们 可 以 指定 一 个 参数 的 名 字 ， 尽 管 基于 种 子 有 
MAE AAA EY GEE) 参数 run， 用 来 控制 模型 是 否 在 运行 。 如 果 你 
想 检 查 所 抽样 的 超 参 数 的 值 ， 这 个 参数 是 有 帮助 的 。 


默认 每 个 抽出 的 值 有 相等 的 概率 。runif () 函数 从 均匀 分 布 指定 的 范围 
且 我 们 已 经 见 到 了 beta 分 布 ， 使 用 rbeta () 函数 从 beta 分 布 中 抽样 。 








数 用 
那么 


完全 





JOE 





















































我 们 从 1 一 5 来 抽样 深度 或 者 层 数 ， 从 20~600 来 抽样 每 一 层 中 的 神经 元 个 数 。 










































































我 们 还 要 随机 抽取 的 两 个 新 参数 是 rho 和 epsilon。 使 用 这 两 个 参数 是 
预期 手动 地 指定 学 习 率 和 动量 (momentum )， 我 们 使 月 
ADADELTA 算法 (Zeiler, M. D. (2012)) 来 自动 地 调整 学 习 率 。ADADELTA 只 有 两 


个 超 参 数 需要 指定 : cho 和 epsilon。ADADELTA 起 作用 在 某 种 程度 上 是 通过 检 





















































抽样 ， 而 


因为 
H (H20 默认 这 样 做 ) 




















查 之 前 的 梯度 ， 而 不 是 存 贮 之 前 所 有 的 梯度 ， 用 到 了 一 个 加 权 的 累积 平均 。rho 参 


于 在 当前 迭代 之 前 加 权 梯 度 , 1 - rho 用 于 加 权 当 前 迭代 的 梯度 ,如果 rho=1, 
不 使 用 当前 的 梯度 而 完全 基于 之 前 的 梯度 ; 如 果 rho=0，, 不 使 用 之 前 的 梯度 而 












































基于 当前 的 梯度 。 通 常 ， 使 用 的 rho 值 在 .9 一 .999 之 间 。 























epsilon 参数 是 一 个 小 的 常数 ， 在 取 之 前 平方 梯度 的 均 方 根 时 ， 它 被 加 到 上 




















面 ( 目 的 是 避免 这 些 均 方 根 恰好 变 成 零 ) 而 且 通 常 它 是 一 个 非常 小 的 数 。 进 一 步 的 
说 明 由 给 出 ADADELTA 的 论文 提供 (Zeiler, M. D. (2012)). 






































run «- function(seed, name = pasteO("m ", seed), run = TRUI 


Gl 
— 
一 


set.seed(seed) 


p <- list( 

Name - name, 

Seed = seed, 

depth = sample(1:5, 1), 
i1. = ruünrtf(l; 0,-.01), 
12 = runif(1, 0, .01), 
input dropout - rbeta(1, 1, 12), 
rho = runif(1, .9, .999), 
epsilon = runif(1, 1e-10, 1e-4)) 


p$neurons <- sample(20:600, p$depth, TRUE) 
p$hidden dropout <- rbeta(p$depth, 1.5, 1)/2 





Gl 


if (run) { 
model <- h2o.deeplearning ( 
x = colnames(use.train.x), 


y 
training frame = h2oactivity.train, 


"Outcome", 


activation = "RectifierWithDropout", 
hidden = pSneurons, 

epochs = 100, 
loss = "CrossEntropy", 


input dropout ratio = p$input dropout, 





hidden dropout ratios = p$hidden dropout, 
11 = p$11, 

12 - p$12, 

rho = p$rho, 


epsilon = pSepsilon, 





export weights and biases = TRUE, 


model id = p$Name 
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## performance on training data 
PSMSE <- h20.mse (model) 

PSR2 <- h2o.r2 (model) 

p$Logloss <- h20.10gloss (model) 








p$CM <- h20o.confusionMatrix (model) 


## performance on testing data 

perf «- h2o.performance (model, h2oactivity.test) 
pST.MS 
pST.R2 <- h2o0.r2 (perf) 
p$T.Logloss <- h20.10gloss (perf) 


[s 





<- h2o.mse (perf) 


pST.CM <- h2o.confusionMatrix (perf) 


) else { 
model <- NULL 


return (list ( 
Params = p, 
Model = model) ) 





use.train.x <- read.table("UCI HAR Dataset/train/X t 
use.test.x <- read.table("UCI HAR Dataset/test/X tes 


use.train.y <- read.table("UCI HAR Dataset/train/y t 











use.test.y <- read.table("UCI HAR Dataset/test/y tes 


use.train «- cbind(use.train.x, Outcome = factor(use 


行 模型 之 前 ， 我 们 需要 载 入 数据 ， 用 于 这 个 例子 的 数据 是 活动 数据 。 


rain.txt") 
Ca txt) 


rain. txt") 





te CXE T DX 


.train.y)) 


use.test «- cbind(use.test.x, Outcome - factor(use.test.y)) 

















-1945176688L, 
-1395587021L, 
571790939L, -2065569174L, 
1748945084L, 264331666L, 

1107560456L, -1697965045L, 
-1685044991L, 13483764671, 
-1183855123L, -91578748L, 
-1489909578L, 1992656608L, 
-696909234L, 6733595451, 

-1319881025L, 3030933L, - 








-1662228527L, 367521152L, 217718878L, 
1584125708L, 


1408989837L, 
1540094185 


-1013192638L, 


-19424049501 


20103108551, 





-7181104291 
1084007115L, 
154241108L, 


-1140731014L, 
-1831664254L) 


1987682639L, 
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use.labels <- read.table("UCI HAR Dataset/activity labels.txt") 
h2oactivity.train «- as.h2o( 
use.train, 
destination frame = "h2oactivitytrain") 
h2oactivity.test «- as.h2o( 
use.test, 
destination frame = "h2oactivitytest") 
为 了 使 得 参数 可 重复 , 我 们 指定 一 个 随机 种 子 的 列表 ,循环 这 个 列表 来 运行 
模型 。 
use.seeds «- c(403L, 10L, 329737957L, -753102721L, 1148078598L, 


13702470811L, 
818264581L, 





18076855601, 
-757809164L, 
-846262763L, 
-313088703L, 








1080941998L, 
2015326310L, 
1815878135L, 
-497569105L, 
-758818768L, 
-877493636L, 





通过 循环 随机 数 种 子 ， 我 们 可 以 简单 地 运行 模型 (尽管 会 花费 一 点 时 间 )。 


model.res «- lapply(use.seeds, 


n 





一 旦 模型 完成 ， 我 们 能 创建 一 个 数据 集 ， 使 用 下 


run) 











出 均 方 误差 (MSE)。 结 果 显 示 如 图 








0-3 所 示 。 























和 的 代码 ， 和 针对 不 同 的 参数 画 
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图 6-3 


model.res.dat «- do.call(rbind, 


lapply(model.res, function (x) 





with (xSParams, 
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data.frame (11 


p.perf <- ggplot (melt (model.res.dat, 

value, MSE 

geom : 

stat smooth(color 

facet wrap (~ variable, 
theme classic() 


print (p.perf) 





MeanHiddenDropout 


rho, epsilon 





input dropout - input dropout, 


sum(neurons), 


mean (hidden dropout), 








epsilon, MSE = T.MSE)))) 





id.vars = c("MSE")), aes( 


"free x", ncol = 2) + 








除了 观察 参数 之 间 的 一 元 联系 和 模型 误差 ， 使 用 多 元 模型 同时 取 不 同 的 参数 来 





考虑 也 是 有 帮助 的 。 





AJ TAX EIU (AR RY 


函数 ， 我 们 
经 元 的 总 个 

















数 之 间 ， 我 们 
分 包括 在 一 个 张 量 扩展 当 
的 项 给 定 一 元 光滑 。 这 上 





















































重要 








a 





F 一 些 非 线 性 )， 采 用 来 自 mgev IN gam () 
使 用 一 般 可 加 模型 (generalized additive model)。 在 模型 深度 和 隐藏 神 
a M 种 相互 作用 ， 
能 我 们 使 用 s () 函数 对 其 余 
EE 的 指定 并 不 是 非常 








过 使 用 te ( As 


ee ER 


取 值 ， 关 键 是 以 某 种 方式 建 模 超 参数 和 模型 性 能 之 间 的 联系 。 

















m.gam <- p 





n". dropout) 


十 


Pub E. 
SumNeurons, 


CENE 


k = 4) + 
k = 4), 


现在 我 们 能 可 视 化 结果 。 使 月 
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下列 代码 ， 前 6 个 一 元 的 项 我 们 画 在 一 张 图 中 ， 


如 图 6-4 所 示 。 常 数 项 没有 显示 ， 所 以 这 些 取 值 不 是 直接 的 MSE 估计 ， 但 关键 是 








找到 每 


个 超 参数 的 最 低 点 。 
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图 6-4 
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e, 
(i in 1:6) { 
plot (m.gam, 


par(mfrow = 2)) 
for 


select - i) 























最 后 ， 我 们 用 下 面 代 码 画 出 交换 作用 项 。 











plot(m.gam, select = 7) 





结果 如 图 

















6-5 所 示 。 这 是 一 张 等 值 线 图 ， 显 示 了 每 一 个 变量 


互 作用 。 真 实 的 MSE 没有 显示 出 来 ， 但 是 在 线 上 做 了 标记 。 
使 用 不 同 的 预测 变量 组 合 可 能 得 到 相同 的 MSE 估计。 一般 来 说 , 似乎 是 层 数 越 多 ， 


























要 获得 可 比较 的 性 能 就 需要 越 多 的 神经 元 。 








model.optimized <- h2o.deeplearn 
x = colnames(use.train.x), 
y = "Outcome", 
training frame = 
activation = 
hidden = 


epochs = 


c(300, 
100, 


"CrossEntropy", 


300, 300), 
loss = 
ratio = .08, 


Qu 


input dropout 





hidden dropout ratios - 
11 = .002, 

12 = 
rho = .95, 
epsilon = le-10, 

export weights and biases = 


model id - "optimized model" 


ing( 


h2oactivity.train, 
"RectifierWithDropout", 


0, 





TRUE, 








TE x HEA y 轴 的 交 


























因为 交互 作用 ， 我 们 


基于 这 些 图 ， 在 下 列 代码 中 ， 我 们 选择 超 参 数 并 指定 一 个 “优化 的 ”模型 。 
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图 6-5 











在 模型 训练 之 后 ， 使 用 h20.performance () 函数 并 将 优化 的 模型 和 测试 数 
据 作 为 参数 传递 给 它 ， 我 们 能 在 验证 数据 中 估计 模型 的 性 能 。 








H20MultinomialMetrics: deeplearning 
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Test Set Metrics: 


调节 和 优化 模型 











MSE: 





Da 





R^2: 


( 





Extract with 'h2o.mse') 0.053 
Extract with 'h20.r2') 0.98 


Logloss: (Extract with 'h2o.1logloss') 0.18 


Confusion Matrix: 











Extract with 'h20.confusionMatrix(«model», 











«data»)') 

X1 X2 X3 X4 X5 X6 Error Rate 
iL 491 0 5 0 0 0 0.010 5 / 496 
2 12 457 1 0 1 0 0.030 14 / 471 
3 32 47 341 0 0 0 0.188 79 / 420 
4 0 2 0 434 535 0 0.116 57 / 491 
5 0 0 0 38 494 0 0.071 38 / 532 
6 0 0 0 0 L5. -522 0.028 l9 7-537 
Totals. 535 506. .347 472, 565 522 0.071 208 / 2,947 


Hit Ratio Table: 











<data>) 


Extract with 'h2o.hit ratio table(«model», 








Top-6 Hit Ratios: 


k hit ratio 


1 


O OF WN FP 
O OF WN 


最 后 





优化 了 的 参数 ， 我们 能 在 测试 数据 


0. 


， 针 对 来 自 随机 搜索 的 单个 最 佳 模型 ， 我 们 能 比较 我 们 模型 的 性 能 。 
! 得 到 0.053 的 MSE， 比 起 随机 搜索 中 得 


0 
0 
0. 
1 
1 


929420 
.993892 
.998643 
999661 
.000000 
.000000 














个 最 佳 模型 减少 了 差不多 21%。 





model.res.dat[which.min (model.res.dat$MSE), 

















使 用 
到 的 单 
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11 12 depth input dropout SumNeurons MeanHiddenDropout 
18 0.0024 0.00011 5 1e-04 2186 0.39 


rho epsilon MSE 
18 0.96 3e-06 0.067 
































在 本 节 中 ， 我 们 介绍 了 如 何 搜索 各 种 超 参数 、 使 用 图 形 和 一 些 建 模 方法 以 及 如 
何尝 试 选择 更 好 的 超 参数 。 更 正式 的 优化 超 参数 也 是 可 能 的 ， 比 如 对 参数 的 贝 叶 斯 
优化 使 用 Spearmint FE, 我 们 可 以 在 线 得 到 https:Wgithub.com/HIPS/Spearmint。 尽 
管 这 些微 调和 优化 的 例子 是 对 深度 预测 模型 显示 的 , 它们 也 可 以 运用 到 预测 和 和 异常 
检测 
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6.3 人 小结 


























利用 第 4 章 和 第 5 章 中 的 技术 ， 可 以 建立 并 使 用 深度 自动 编码 器 来 学 习 数 据 中 
的 特征 、 识 别离 群 点 和 异常 值 以 及 使 用 深度 前 馈 神 经 网 络 来 预测 新 的 结果 或 分 类 数 
据 ， 如 图 像 、 语 音 或 其 他 的 数据 。 尽 管 只 是 一 个 入 门 ， 希 望 来 目 本 书 的 思想 和 代码 
能 够 使 我 们 开局 深度 学 习 ， 解 决 真实 世界 的 实际 问题 。 






















































































深度 学 习 和 人 工 智 能 是 非常 活跃 的 研究 领域 。 新 的 工具 和 技术 层出不穷 ， 本 书 
只 是 对 深度 学 习 中 的 一 些 标准 和 常用 的 模型 提供 了 一 个 介绍 。 现 在 就 是 学 习 这 个 领 
域 的 激动 人 心 的 时 刻 ， 笔 者 希望 本 书 能 有 助 于 开启 大 家 的 旅程 。 
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深度 学 习 精 要 ( 基于 R 语言 ) 


R Deep Learning Essentials 








深度 学 习 是 机 器 学 习 的 一 个 分 支 ， 其 基础 是 一 组 试图 使 用 模型 架构 建立 高 水 平 抽象 模型 的 算法 。 本 书 结 
合 民 语言 介绍 深度 学 习 软 件 包 H20, :NEE 
学 习 包 开始 ， 接 着 转向 建立 神经 网 络 、 预 测 和 深度 预测 等 模型 ， 所 有 这 些 模型 都 由 实际 案例 的 辅助 来 实现 。 
成 功 安装 了 H2O 软件 包 后 ， 你 将 学 习 预 测算 法 。 随 后 本 书 会 解释 诸如 过 拟 合 数据 、 异 常数 据 以 及 深度 预测 
模型 等 概念 。 最 后 ， 本 书 会 介绍 设计 调 参 和 优化 模型 的 概念 。 
































FEVERS 


本 书 适合 那些 胸怀 大 志 的 数据 科学 家 ， 他 们 精通 R 语言 数据 科学 概念 ， 并 希望 可 以 使 用 R 中 的 包 进 一 步 
探索 深度 学 习 范 式 。 Rr E 并 熟悉 统计 算法 和 机 器 学 习 技 术 。 












































通过 阅读 本 书 ， 你 将 能 够 


建立 R 包 H20 训练 深度 学 习 模 型 ; 
理解 深度 学 习 模 型 背后 的 核心 

使 用 自动 编码 器 识别 异常 数据 或 离 群 点 ; 

使 用 深度 神经 网 络 自动 化 地 预测 或 分 类 数据 ; 
使 用 正则 化 建立 泛 化 模型 ， 避 免 数据 的 过 拟 合 。 
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